Unterschiede
Hier werden die Unterschiede zwischen zwei Versionen angezeigt.
Nächste Überarbeitung | Vorhergehende Überarbeitung | ||
arbeiten:extraktion_strukturierter_daten_aus_rechnungsdokumenten_mittels_maschinellen_lernens [07.06.2021 13:29] – Erstellt mit dem Formular arbeiten:anlegen Christian Wolff | arbeiten:extraktion_strukturierter_daten_aus_rechnungsdokumenten_mittels_maschinellen_lernens [07.11.2021 18:38] (aktuell) – [Data-Entry] wiv23079 | ||
---|---|---|---|
Zeile 2: | Zeile 2: | ||
---- dataentry StudentischeArbeit ---- | ---- dataentry StudentischeArbeit ---- | ||
- | Thema | + | Thema : Extraktion strukturierter Daten aus Rechnungsdokumenten mittels Maschinellen Lernens |
- | Art_thesistypes | + | Art_thesistypes |
- | BetreuerIn_thesisadvisor | + | BetreuerIn_thesisadvisor |
- | BearbeiterIn | + | BearbeiterIn |
- | ErstgutachterIn_thesisprofessor | + | ErstgutachterIn_thesisprofessor |
- | ZweitgutachterIn_secondthesisprofessor : | + | ZweitgutachterIn_secondthesisprofessor : Raphael Wimmer |
- | Status_thesisstate | + | Status_thesisstate |
- | Stichworte_thesiskeywords | + | Stichworte_thesiskeywords |
- | angelegt_dt | + | angelegt_dt |
- | Anmeldung_dt | + | Anmeldung_dt |
- | Antrittsvortrag_dt | + | Antrittsvortrag_dt |
- | Abschlussvortrag_dt | + | Abschlussvortrag_dt |
- | Abgabe_dt | + | Abgabe_dt |
- | Textlizenz_textlicense | + | Textlizenz_textlicense |
- | Codelizenz_codelicense | + | Codelizenz_codelicense |
---- | ---- | ||
+ | |||
+ | |||
+ | |||
=== Hintergrund === | === Hintergrund === | ||
- | TBD | + | Im Rahmen der Digitalisierung im Arbeitsumfeld werden Rechnungen von der Papierform in die elektronische überführt oder schon rein digital versendet und bearbeitet. Die Ablage erfolgt unter bestimmten Vorschriften, |
=== Zielsetzung der Arbeit === | === Zielsetzung der Arbeit === | ||
- | TBD | + | Ziel dieser Masterarbeit ist die Entwicklung eines Modells zur Extraktion relevanter Daten aus Rechnungsdokumenten, |
=== Konkrete Aufgaben === | === Konkrete Aufgaben === | ||
- | + | - Literaturrecherche | |
- | TBD | + | - Toolrecherche (OCR, pdf2python, Annotation) |
+ | - Dokumente digitalisieren (Scannen, OCR, sortieren) | ||
+ | - Dokumente annotieren | ||
+ | - Inhalte extrahieren (Text, Position, Größe, etc.) und labeln mit den Annotationen | ||
+ | - Trainingsdatensatz erstellen | ||
+ | - Entwicklung des ML-Modells | ||
+ | * Modell-Auswahl | ||
+ | * Feature Engineering | ||
+ | * Feature Selection | ||
+ | * Parameter Optimization | ||
+ | - Datenaufbereitung | ||
+ | - Evaluation und Vergleich mit DL Ansatz | ||
=== Erwartete Vorkenntnisse === | === Erwartete Vorkenntnisse === | ||
- | + | * Machine Learning | |
- | TBD | + | * Listenpunktpython |
=== Weiterführende Quellen === | === Weiterführende Quellen === | ||
- | + | * R. B. Palm, F. Laws and O. Winther, " | |
- | TBD | + | * R. B. Palm, O. Winther and F. Laws, " |
+ | * D. Schuster et al., " | ||
+ | * F. Schulz, M. Ebbecke, M. Gillmann, B. Adrian, S. Agne and A. Dengel, " | ||
+ | * Holt, X., & Chisholm, A. (2018, December). Extracting structured data from invoices. In Proceedings of the Australasian Language Technology Association Workshop 2018 (pp. 53-59). | ||
+ | * Bardelli, C., Rondinelli, A., Vecchio, R., & Figini, S. (2020). Automatic electronic invoice classification using machine learning models. Machine Learning and Knowledge Extraction, 2(4), 617-629. | ||