Unterschiede
Hier werden die Unterschiede zwischen zwei Versionen angezeigt.
Nächste Überarbeitung | Vorhergehende Überarbeitung | ||
arbeiten:annotation_extraction [29.05.2020 17:43] – Erstellt mit dem Formular arbeiten:anlegen Andreas Schmid | arbeiten:annotation_extraction [02.09.2020 13:23] (aktuell) – [Data-Entry] Andreas Schmid | ||
---|---|---|---|
Zeile 2: | Zeile 2: | ||
---- dataentry StudentischeArbeit ---- | ---- dataentry StudentischeArbeit ---- | ||
- | Thema | + | Thema : Extraktion handschriftlicher Annotationen aus gescannten Dokumenten |
- | Art_thesistypes | + | Art_thesistypes |
- | BetreuerIn_thesisadvisor | + | BetreuerIn_thesisadvisor |
- | BearbeiterIn | + | BearbeiterIn |
- | ErstgutachterIn_thesisprofessor | + | ErstgutachterIn_thesisprofessor |
- | ZweitgutachterIn_secondthesisprofessor : | + | ZweitgutachterIn_secondthesisprofessor : Niels Henze # |
- | Status_thesisstate | + | Status_thesisstate |
- | Stichworte_thesiskeywords | + | Stichworte_thesiskeywords |
- | angelegt_dt | + | angelegt_dt |
- | Anmeldung_dt | + | Anmeldung_dt |
- | Antrittsvortrag_dt | + | Antrittsvortrag_dt |
- | Abschlussvortrag_dt | + | Abschlussvortrag_dt |
- | Abgabe_dt | + | Abgabe_dt |
- | Textlizenz_textlicense | + | Textlizenz_textlicense |
- | Codelizenz_codelicense | + | Codelizenz_codelicense |
---- | ---- | ||
+ | |||
+ | |||
=== Hintergrund === | === Hintergrund === | ||
- | TBD | + | Moderne PDF-Reader bieten meist Funktionen zum Annotieren und kommentieren von Dokumenten. |
+ | In der Praxis werden Dokumente dennoch häufig von Hand annotiert, da viele lieber mit gedruckten Dokumenten arbeiten und man beim Annotieren nicht auf die Funktionen der Software begrenzt ist - so können beispielsweise ohne Konfigurationsaufwand verschiedene Farben verwendet werden, Pfeile sind einfacher zu erstellen und man auf dem Blatt zeichnen. | ||
+ | Vorteile digitaler Annotationen sind hingegen der quasi unbegrenzte Platz, das einfachere Verschicken des annotierten Dokuments und dass die Annotationen maschinenlesbar sind. | ||
+ | |||
+ | Bereits existierende Technologien, | ||
+ | Insbesondere die Stifte des Herstellers Anoto [1] werden in verwandten Arbeiten häufig verwendet, um Annotationen zu extrahieren [2]. | ||
+ | Dieses Produkt wird allerdings nicht mehr hergestellt und das proprietäre Punktmuster, | ||
+ | Darüber hinaus ist die Anoto-Technologie nur bedingt praxistauglich, | ||
+ | |||
+ | Es gibt auch Verfahren zur Extraktion von Annotationen, | ||
+ | Nakai et al. [3] verwenden einen Ansatz, bei dem Scans annotierter Dokumente mittels Bilderkennungsverfahren (Background Substraction) mit deren digitalem Original verglichen werden. | ||
+ | Eine sehr ähnliche Methode wurde letztendlich 2009 von der Firma Microsoft patentiert [4], hat jedoch bislang keinen Weg in deren Produkte gefunden. | ||
=== Zielsetzung der Arbeit === | === Zielsetzung der Arbeit === | ||
- | TBD | + | Deshalb soll in dieser Arbeit ein Verfahren zur Extraktion von Annotationen aus physischen Dokumenten entwickelt werden, das ohne speziell präparierte Schreibutensilien auskommt. |
+ | Ähnlich wie in [3] und [4] sollen Scans mit einem Original-PDF verglichen werden, um Annotierte Regionen zu finden. | ||
+ | Diese sollen extrahiert und an der richtigen Stelle ins Original-PDF eingefügt werden. | ||
+ | Mit Textmarker angetrichene Abschnitte sollen automatisch zu PDF-Annotationen umgewandelt werden, sodass sie am Rechner mit Kommentaren versehen werden können. | ||
=== Konkrete Aufgaben === | === Konkrete Aufgaben === | ||
- | TBD | + | * Aufbereiten des Themas (Literaturrecherche) (1 Woche, Einarbeitungszeit) |
+ | * Anforderungserhebung und Proof of Concept (1 Woche, Einarbeitungszeit) | ||
+ | * Implementierung eines Bilderkennungsalgorithmus zur Extraktion von Annotationen durch den Vergleich eines Scans mit einer PDF-Datei (3 Wochen) | ||
+ | * Implementierung einer Anwendung zum Einfügen extrahierter Annotationen in eine PDF-Datei (1 Woche) | ||
+ | * technische Evaluation des Extraktionsalgorithmus anhand eines realistischen Datensatzes hinsichtlich Erfolgsrate, | ||
+ | * Vervollständigen der schriftlichen Ausarbeitung (2 Wochen) | ||
=== Erwartete Vorkenntnisse === | === Erwartete Vorkenntnisse === | ||
- | TBD | + | * strukturierte und sorgfältige Vorgehensweise |
+ | * keine Angst vor einer komplexen und vielseitigen Probelmstellung | ||
+ | * Linux-Grundlagen | ||
+ | * Grundlagen in Bildverarbeitung | ||
=== Weiterführende Quellen === | === Weiterführende Quellen === | ||
- | TBD | + | [1] https:// |
+ | |||
+ | [2] Norrie, M. C., Signer, B., & Weibel, N. (2006). Print-n-link: | ||
+ | |||
+ | [3] Nakai, T., Kise, K., & Iwamura, M. (2007, September). A method of annotation extraction from paper documents using alignment based on local arrangements of feature points. In Ninth International Conference on Document Analysis and Recognition (ICDAR 2007) (Vol. 1, pp. 23-27). IEEE. | ||
+ | |||
+ | [4] Bargeron, D. M. (2009). U.S. Patent No. 7,526,129. Washington, DC: U.S. Patent and Trademark Office. | ||