arbeiten:extraktion_strukturierter_daten_aus_rechnungsdokumenten_mittels_maschinellen_lernens

Unterschiede

Hier werden die Unterschiede zwischen zwei Versionen angezeigt.

Link zu dieser Vergleichsansicht

Beide Seiten der vorigen Revision Vorhergehende Überarbeitung
Nächste Überarbeitung
Vorhergehende Überarbeitung
Nächste ÜberarbeitungBeide Seiten der Revision
arbeiten:extraktion_strukturierter_daten_aus_rechnungsdokumenten_mittels_maschinellen_lernens [07.06.2021 13:32] Christian Wolffarbeiten:extraktion_strukturierter_daten_aus_rechnungsdokumenten_mittels_maschinellen_lernens [14.06.2021 13:56] – [Data-Entry] wef17307
Zeile 2: Zeile 2:
  
 ---- dataentry StudentischeArbeit ---- ---- dataentry StudentischeArbeit ----
-Thema                       : Extraktion strukturierter Daten aus Rechnungsdokumenten mittels Maschinellen Lernens +Thema                                  : Extraktion strukturierter Daten aus Rechnungsdokumenten mittels Maschinellen Lernens 
-Art_thesistypes             : MA +Art_thesistypes                        : MA 
-BetreuerIn_thesisadvisor    : Christian Wolff +BetreuerIn_thesisadvisor               : Christian Wolff 
-BearbeiterIn                : Felix Wende +BearbeiterIn                           : Felix Wende 
-ErstgutachterIn_thesisprofessor  : Christian Wolff +ErstgutachterIn_thesisprofessor        : Christian Wolff 
-ZweitgutachterIn_secondthesisprofessor :  +ZweitgutachterIn_secondthesisprofessor : Raphael Wimmer 
-Status_thesisstate          : in Bearbeitung +Status_thesisstate                     : in Bearbeitung 
-Stichworte_thesiskeywords   :  +Stichworte_thesiskeywords              Machine Learning, Information Extraction, Invoice Analysis 
-angelegt_dt                 : 2021-06-07 +angelegt_dt                            : 2021-06-07 
-Anmeldung_dt                : 2021-06-21 +Anmeldung_dt                           : 2021-06-21 
-Antrittsvortrag_dt          : 2021-06-21 +Antrittsvortrag_dt                     : 2021-06-21 
-Abschlussvortrag_dt         :  +Abschlussvortrag_dt                    :  
-Abgabe_dt                   :  +Abgabe_dt                              :  
-Textlizenz_textlicense      : ##Lizenz|## +Textlizenz_textlicense                  # #Lizenz|## 
-Codelizenz_codelicense      : ##Lizenz|##+Codelizenz_codelicense                  # #Lizenz|##
 ---- ----
 +
  
 === Hintergrund === === Hintergrund ===
Zeile 28: Zeile 29:
  
 === Konkrete Aufgaben === === Konkrete Aufgaben ===
-1. Literaturrecherche +  - Literaturrecherche 
-2. Toolrecherche (OCR, pdf2python, Annotation) +  Toolrecherche (OCR, pdf2python, Annotation) 
-3. Dokumente digitalisieren (Scannen, OCR, sortieren) +  Dokumente digitalisieren (Scannen, OCR, sortieren) 
-4. Dokumente annotieren +  Dokumente annotieren 
-5. Inhalte extrahieren (Text, Position, Größe, etc.) und labeln mit den Annotationen +  Inhalte extrahieren (Text, Position, Größe, etc.) und labeln mit den Annotationen 
-6. Trainingsdatensatz erstellen +  Trainingsdatensatz erstellen 
-7. Entwicklung des ML-Modells +  Entwicklung des ML-Modells 
-    - Datenaufbereitung +  - Datenaufbereitung 
-    Modell-Auswahl +    Modell-Auswahl 
-    Feature Engineering +    Feature Engineering 
-    Feature Selection +    Feature Selection 
-    Parameter Optimization +    Parameter Optimization 
-8. Evaluation und Vergleich mit DL Ansatz+  Evaluation und Vergleich mit DL Ansatz
  
 === Erwartete Vorkenntnisse === === Erwartete Vorkenntnisse ===
-Machine Learning +  * Machine Learning 
-- python+  * Listenpunktpython
  
 === Weiterführende Quellen === === Weiterführende Quellen ===
-R. B. Palm, F. Laws and O. Winther, "Attend, Copy, Parse End-to-end Information Extraction from Documents," 2019 International Conference on Document Analysis and Recognition (ICDAR), Sydney, Australia, 2019, pp. 329-336, doi: 10.1109/ICDAR.2019.00060. +  * R. B. Palm, F. Laws and O. Winther, "Attend, Copy, Parse End-to-end Information Extraction from Documents," 2019 International Conference on Document Analysis and Recognition (ICDAR), Sydney, Australia, 2019, pp. 329-336, doi: 10.1109/ICDAR.2019.00060. 
-R. B. Palm, O. Winther and F. Laws, "CloudScan - A Configuration-Free Invoice Analysis System Using Recurrent Neural Networks," 2017 14th IAPR International Conference on Document Analysis and Recognition (ICDAR), Kyoto, 2017, pp. 406-413, doi: 10.1109/ICDAR.2017.74. +  R. B. Palm, O. Winther and F. Laws, "CloudScan - A Configuration-Free Invoice Analysis System Using Recurrent Neural Networks," 2017 14th IAPR International Conference on Document Analysis and Recognition (ICDAR), Kyoto, 2017, pp. 406-413, doi: 10.1109/ICDAR.2017.74. 
-D. Schuster et al., "Intellix -- End-User Trained Information Extraction for Document Archiving," 2013 12th International Conference on Document Analysis and Recognition, Washington, DC, 2013, pp. 101-105, doi: 10.1109/ICDAR.2013.28. +  D. Schuster et al., "Intellix -- End-User Trained Information Extraction for Document Archiving," 2013 12th International Conference on Document Analysis and Recognition, Washington, DC, 2013, pp. 101-105, doi: 10.1109/ICDAR.2013.28. 
-F. Schulz, M. Ebbecke, M. Gillmann, B. Adrian, S. Agne and A. Dengel, "Seizing the Treasure: Transferring Knowledge in Invoice Analysis," 2009 10th International Conference on Document Analysis and Recognition, Barcelona, 2009, pp. 848-852, doi: 10.1109/ICDAR.2009.47. +  F. Schulz, M. Ebbecke, M. Gillmann, B. Adrian, S. Agne and A. Dengel, "Seizing the Treasure: Transferring Knowledge in Invoice Analysis," 2009 10th International Conference on Document Analysis and Recognition, Barcelona, 2009, pp. 848-852, doi: 10.1109/ICDAR.2009.47. 
-Holt, X., & Chisholm, A. (2018, December). Extracting structured data from invoices. In Proceedings of the Australasian Language Technology Association Workshop 2018 (pp. 53-59). +  Holt, X., & Chisholm, A. (2018, December). Extracting structured data from invoices. In Proceedings of the Australasian Language Technology Association Workshop 2018 (pp. 53-59). 
-Bardelli, C., Rondinelli, A., Vecchio, R., & Figini, S. (2020). Automatic electronic invoice classification using machine learning models. Machine Learning and Knowledge Extraction, 2(4), 617-629.+  Bardelli, C., Rondinelli, A., Vecchio, R., & Figini, S. (2020). Automatic electronic invoice classification using machine learning models. Machine Learning and Knowledge Extraction, 2(4), 617-629.