Unterschiede
Hier werden die Unterschiede zwischen zwei Versionen angezeigt.
Beide Seiten der vorigen Revision Vorhergehende Überarbeitung Nächste Überarbeitung | Vorhergehende Überarbeitung | ||
arbeiten:extraktion_strukturierter_daten_aus_rechnungsdokumenten_mittels_maschinellen_lernens [07.06.2021 13:32] – Christian Wolff | arbeiten:extraktion_strukturierter_daten_aus_rechnungsdokumenten_mittels_maschinellen_lernens [07.11.2021 18:38] (aktuell) – [Data-Entry] wiv23079 | ||
---|---|---|---|
Zeile 2: | Zeile 2: | ||
---- dataentry StudentischeArbeit ---- | ---- dataentry StudentischeArbeit ---- | ||
- | Thema | + | Thema : Extraktion strukturierter Daten aus Rechnungsdokumenten mittels Maschinellen Lernens |
- | Art_thesistypes | + | Art_thesistypes |
- | BetreuerIn_thesisadvisor | + | BetreuerIn_thesisadvisor |
- | BearbeiterIn | + | BearbeiterIn |
- | ErstgutachterIn_thesisprofessor | + | ErstgutachterIn_thesisprofessor |
- | ZweitgutachterIn_secondthesisprofessor : | + | ZweitgutachterIn_secondthesisprofessor : Raphael Wimmer |
- | Status_thesisstate | + | Status_thesisstate |
- | Stichworte_thesiskeywords | + | Stichworte_thesiskeywords |
- | angelegt_dt | + | angelegt_dt |
- | Anmeldung_dt | + | Anmeldung_dt |
- | Antrittsvortrag_dt | + | Antrittsvortrag_dt |
- | Abschlussvortrag_dt | + | Abschlussvortrag_dt |
- | Abgabe_dt | + | Abgabe_dt |
- | Textlizenz_textlicense | + | Textlizenz_textlicense |
- | Codelizenz_codelicense | + | Codelizenz_codelicense |
---- | ---- | ||
+ | |||
+ | |||
+ | |||
=== Hintergrund === | === Hintergrund === | ||
Zeile 28: | Zeile 31: | ||
=== Konkrete Aufgaben === | === Konkrete Aufgaben === | ||
- | 1. Literaturrecherche | + | - Literaturrecherche |
- | 2. Toolrecherche (OCR, pdf2python, Annotation) | + | |
- | 3. Dokumente digitalisieren (Scannen, OCR, sortieren) | + | |
- | 4. Dokumente annotieren | + | |
- | 5. Inhalte extrahieren (Text, Position, Größe, etc.) und labeln mit den Annotationen | + | |
- | 6. Trainingsdatensatz erstellen | + | |
- | 7. Entwicklung des ML-Modells | + | |
- | | + | |
- | - Modell-Auswahl | + | |
- | | + | |
- | | + | |
- | | + | - Datenaufbereitung |
- | 8. Evaluation und Vergleich mit DL Ansatz | + | - Evaluation und Vergleich mit DL Ansatz |
=== Erwartete Vorkenntnisse === | === Erwartete Vorkenntnisse === | ||
- | - Machine Learning | + | * Machine Learning |
- | - python | + | * Listenpunktpython |
=== Weiterführende Quellen === | === Weiterführende Quellen === | ||
- | - R. B. Palm, F. Laws and O. Winther, " | + | * R. B. Palm, F. Laws and O. Winther, " |
- | - R. B. Palm, O. Winther and F. Laws, " | + | |
- | - D. Schuster et al., " | + | |
- | - F. Schulz, M. Ebbecke, M. Gillmann, B. Adrian, S. Agne and A. Dengel, " | + | |
- | - Holt, X., & Chisholm, A. (2018, December). Extracting structured data from invoices. In Proceedings of the Australasian Language Technology Association Workshop 2018 (pp. 53-59). | + | |
- | - Bardelli, C., Rondinelli, A., Vecchio, R., & Figini, S. (2020). Automatic electronic invoice classification using machine learning models. Machine Learning and Knowledge Extraction, 2(4), 617-629. | + | |