arbeiten:extraktion_strukturierter_daten_aus_rechnungsdokumenten_mittels_maschinellen_lernens

Unterschiede

Hier werden die Unterschiede zwischen zwei Versionen angezeigt.

Link zu dieser Vergleichsansicht

Beide Seiten der vorigen Revision Vorhergehende Überarbeitung
Nächste Überarbeitung
Vorhergehende Überarbeitung
arbeiten:extraktion_strukturierter_daten_aus_rechnungsdokumenten_mittels_maschinellen_lernens [07.06.2021 13:32] Christian Wolffarbeiten:extraktion_strukturierter_daten_aus_rechnungsdokumenten_mittels_maschinellen_lernens [07.11.2021 18:38] (aktuell) – [Data-Entry] wiv23079
Zeile 2: Zeile 2:
  
 ---- dataentry StudentischeArbeit ---- ---- dataentry StudentischeArbeit ----
-Thema                       : Extraktion strukturierter Daten aus Rechnungsdokumenten mittels Maschinellen Lernens +Thema                                  : Extraktion strukturierter Daten aus Rechnungsdokumenten mittels Maschinellen Lernens 
-Art_thesistypes             : MA +Art_thesistypes                        : MA 
-BetreuerIn_thesisadvisor    : Christian Wolff +BetreuerIn_thesisadvisor               : Christian Wolff 
-BearbeiterIn                : Felix Wende +BearbeiterIn                           : Felix Wende 
-ErstgutachterIn_thesisprofessor  : Christian Wolff +ErstgutachterIn_thesisprofessor        : Christian Wolff 
-ZweitgutachterIn_secondthesisprofessor :  +ZweitgutachterIn_secondthesisprofessor : Raphael Wimmer 
-Status_thesisstate          in Bearbeitung +Status_thesisstate                     abgeschlossen 
-Stichworte_thesiskeywords   :  +Stichworte_thesiskeywords              Machine Learning, Information Extraction, Invoice Analysis 
-angelegt_dt                 : 2021-06-07 +angelegt_dt                            : 2021-06-07 
-Anmeldung_dt                : 2021-06-21 +Anmeldung_dt                           : 2021-06-21 
-Antrittsvortrag_dt          : 2021-06-21 +Antrittsvortrag_dt                     : 2021-06-21 
-Abschlussvortrag_dt         :  +Abschlussvortrag_dt                    2021-11-08 
-Abgabe_dt                   :  +Abgabe_dt                              :  
-Textlizenz_textlicense      : ##Lizenz|## +Textlizenz_textlicense                  # #Lizenz|## 
-Codelizenz_codelicense      : ##Lizenz|##+Codelizenz_codelicense                  # #Lizenz|##
 ---- ----
 +
 +
 +
  
 === Hintergrund === === Hintergrund ===
Zeile 28: Zeile 31:
  
 === Konkrete Aufgaben === === Konkrete Aufgaben ===
-1. Literaturrecherche +  - Literaturrecherche 
-2. Toolrecherche (OCR, pdf2python, Annotation) +  Toolrecherche (OCR, pdf2python, Annotation) 
-3. Dokumente digitalisieren (Scannen, OCR, sortieren) +  Dokumente digitalisieren (Scannen, OCR, sortieren) 
-4. Dokumente annotieren +  Dokumente annotieren 
-5. Inhalte extrahieren (Text, Position, Größe, etc.) und labeln mit den Annotationen +  Inhalte extrahieren (Text, Position, Größe, etc.) und labeln mit den Annotationen 
-6. Trainingsdatensatz erstellen +  Trainingsdatensatz erstellen 
-7. Entwicklung des ML-Modells +  Entwicklung des ML-Modells 
-    - Datenaufbereitung +    Modell-Auswahl 
-    - Modell-Auswahl +    Feature Engineering 
-    Feature Engineering +    Feature Selection 
-    Feature Selection +    Parameter Optimization 
-    Parameter Optimization +  - Datenaufbereitung 
-8. Evaluation und Vergleich mit DL Ansatz+  - Evaluation und Vergleich mit DL Ansatz
  
 === Erwartete Vorkenntnisse === === Erwartete Vorkenntnisse ===
-Machine Learning +  * Machine Learning 
-- python+  * Listenpunktpython
  
 === Weiterführende Quellen === === Weiterführende Quellen ===
-R. B. Palm, F. Laws and O. Winther, "Attend, Copy, Parse End-to-end Information Extraction from Documents," 2019 International Conference on Document Analysis and Recognition (ICDAR), Sydney, Australia, 2019, pp. 329-336, doi: 10.1109/ICDAR.2019.00060. +  * R. B. Palm, F. Laws and O. Winther, "Attend, Copy, Parse End-to-end Information Extraction from Documents," 2019 International Conference on Document Analysis and Recognition (ICDAR), Sydney, Australia, 2019, pp. 329-336, doi: 10.1109/ICDAR.2019.00060. 
-R. B. Palm, O. Winther and F. Laws, "CloudScan - A Configuration-Free Invoice Analysis System Using Recurrent Neural Networks," 2017 14th IAPR International Conference on Document Analysis and Recognition (ICDAR), Kyoto, 2017, pp. 406-413, doi: 10.1109/ICDAR.2017.74. +  R. B. Palm, O. Winther and F. Laws, "CloudScan - A Configuration-Free Invoice Analysis System Using Recurrent Neural Networks," 2017 14th IAPR International Conference on Document Analysis and Recognition (ICDAR), Kyoto, 2017, pp. 406-413, doi: 10.1109/ICDAR.2017.74. 
-D. Schuster et al., "Intellix -- End-User Trained Information Extraction for Document Archiving," 2013 12th International Conference on Document Analysis and Recognition, Washington, DC, 2013, pp. 101-105, doi: 10.1109/ICDAR.2013.28. +  D. Schuster et al., "Intellix -- End-User Trained Information Extraction for Document Archiving," 2013 12th International Conference on Document Analysis and Recognition, Washington, DC, 2013, pp. 101-105, doi: 10.1109/ICDAR.2013.28. 
-F. Schulz, M. Ebbecke, M. Gillmann, B. Adrian, S. Agne and A. Dengel, "Seizing the Treasure: Transferring Knowledge in Invoice Analysis," 2009 10th International Conference on Document Analysis and Recognition, Barcelona, 2009, pp. 848-852, doi: 10.1109/ICDAR.2009.47. +  F. Schulz, M. Ebbecke, M. Gillmann, B. Adrian, S. Agne and A. Dengel, "Seizing the Treasure: Transferring Knowledge in Invoice Analysis," 2009 10th International Conference on Document Analysis and Recognition, Barcelona, 2009, pp. 848-852, doi: 10.1109/ICDAR.2009.47. 
-Holt, X., & Chisholm, A. (2018, December). Extracting structured data from invoices. In Proceedings of the Australasian Language Technology Association Workshop 2018 (pp. 53-59). +  Holt, X., & Chisholm, A. (2018, December). Extracting structured data from invoices. In Proceedings of the Australasian Language Technology Association Workshop 2018 (pp. 53-59). 
-Bardelli, C., Rondinelli, A., Vecchio, R., & Figini, S. (2020). Automatic electronic invoice classification using machine learning models. Machine Learning and Knowledge Extraction, 2(4), 617-629.+  Bardelli, C., Rondinelli, A., Vecchio, R., & Figini, S. (2020). Automatic electronic invoice classification using machine learning models. Machine Learning and Knowledge Extraction, 2(4), 617-629.