Extraktion handschriftlicher Annotationen aus gescannten Dokumenten

Thema:: Extraktion handschriftlicher Annotationen aus gescannten Dokumenten
Art:: BA
BetreuerIn:: Andreas Schmid
BearbeiterIn:: Jonas Penzel
ErstgutachterIn:: Raphael Wimmer
ZweitgutachterIn:: Niels Henze
Status:: abgeschlossen
Stichworte:: hybrid document management, physical-digital, computer vision
angelegt:: 2020-05-29
Antrittsvortrag:: 2020-06-22
Abgabe:: 2020-08-24

Hintergrund

Moderne PDF-Reader bieten meist Funktionen zum Annotieren und kommentieren von Dokumenten. In der Praxis werden Dokumente dennoch häufig von Hand annotiert, da viele lieber mit gedruckten Dokumenten arbeiten und man beim Annotieren nicht auf die Funktionen der Software begrenzt ist - so können beispielsweise ohne Konfigurationsaufwand verschiedene Farben verwendet werden, Pfeile sind einfacher zu erstellen und man auf dem Blatt zeichnen. Vorteile digitaler Annotationen sind hingegen der quasi unbegrenzte Platz, das einfachere Verschicken des annotierten Dokuments und dass die Annotationen maschinenlesbar sind.

Bereits existierende Technologien, mit denen die Vorteile analoger und digitaler Annotationen genutzt werden sollen, verwenden Papier mit einem speziellen Punktmuster und besondere Stifte, die dieses Muster erkennen und anhand dessen die absolute Position auf dem Papier berechnen. Insbesondere die Stifte des Herstellers Anoto [1] werden in verwandten Arbeiten häufig verwendet, um Annotationen zu extrahieren [2]. Dieses Produkt wird allerdings nicht mehr hergestellt und das proprietäre Punktmuster, auf dem die Technologie basiert ist nicht für die Öffentlichkeit zugänglich. Darüber hinaus ist die Anoto-Technologie nur bedingt praxistauglich, da sie nur mit Papier funktioniert, das vorher mit diesem Punktmuster bedruckt wurde.

Es gibt auch Verfahren zur Extraktion von Annotationen, die ohne spezielle Hardware oder Marker auf dem Papier auskommen. Nakai et al. [3] verwenden einen Ansatz, bei dem Scans annotierter Dokumente mittels Bilderkennungsverfahren (Background Substraction) mit deren digitalem Original verglichen werden. Eine sehr ähnliche Methode wurde letztendlich 2009 von der Firma Microsoft patentiert [4], hat jedoch bislang keinen Weg in deren Produkte gefunden.

Zielsetzung der Arbeit

Deshalb soll in dieser Arbeit ein Verfahren zur Extraktion von Annotationen aus physischen Dokumenten entwickelt werden, das ohne speziell präparierte Schreibutensilien auskommt. Ähnlich wie in [3] und [4] sollen Scans mit einem Original-PDF verglichen werden, um Annotierte Regionen zu finden. Diese sollen extrahiert und an der richtigen Stelle ins Original-PDF eingefügt werden. Mit Textmarker angetrichene Abschnitte sollen automatisch zu PDF-Annotationen umgewandelt werden, sodass sie am Rechner mit Kommentaren versehen werden können.

Konkrete Aufgaben

Aufbereiten des Themas (Literaturrecherche) (1 Woche, Einarbeitungszeit)
Anforderungserhebung und Proof of Concept (1 Woche, Einarbeitungszeit)
Implementierung eines Bilderkennungsalgorithmus zur Extraktion von Annotationen durch den Vergleich eines Scans mit einer PDF-Datei (3 Wochen)
Implementierung einer Anwendung zum Einfügen extrahierter Annotationen in eine PDF-Datei (1 Woche)
technische Evaluation des Extraktionsalgorithmus anhand eines realistischen Datensatzes hinsichtlich Erfolgsrate, Präzision und Verarbeitungsgeschwindigkeit (2 Wochen)
Vervollständigen der schriftlichen Ausarbeitung (2 Wochen)

Erwartete Vorkenntnisse

strukturierte und sorgfältige Vorgehensweise
keine Angst vor einer komplexen und vielseitigen Probelmstellung
Linux-Grundlagen
Grundlagen in Bildverarbeitung

Weiterführende Quellen

[1] https://www.anoto.com/

[2] Norrie, M. C., Signer, B., & Weibel, N. (2006). Print-n-link: Weaving the paper web. Proceedings of the 2006 ACM Symposium on Document Engineering, 34–43. http://dl.acm.org/citation.cfm?id=1166175

[3] Nakai, T., Kise, K., & Iwamura, M. (2007, September). A method of annotation extraction from paper documents using alignment based on local arrangements of feature points. In Ninth International Conference on Document Analysis and Recognition (ICDAR 2007) (Vol. 1, pp. 23-27). IEEE.

[4] Bargeron, D. M. (2009). U.S. Patent No. 7,526,129. Washington, DC: U.S. Patent and Trademark Office.