Generating Company Profiles Using Natural Language Processing

Thema:: Generating Company Profiles Using Natural Language Processing
Art:: MA
BetreuerIn:: Christian Wolff, Julia Wemken (Bosch), Tobias Kallenbach (Bosch)
BearbeiterIn:: Christoph Tögel
ErstgutachterIn:: Christian Wolff
ZweitgutachterIn:: Udo Kruschwitz
Status:: abgeschlossen
Stichworte:: NLP, Automatisierung, Datenanalyse, natural language provessing, named entity recognition, deep learning, BERT
angelegt:: 2020-10-19
Antrittsvortrag:: 2020-11-09
Abschlussvortrag:: 2021-04-26

Hintergrund

Damit Unternehmen ihre Position am Markt behaupten und auf Trends reagieren können, müssen aktuelle Entwicklungen und besonders die Aktivitäten von Wettbewerbern überwacht werden. Aufgrund der Vielzahl von Firmen und Größe des Marktes, ist dies ein tiefgehender und meist individueller Prozess für jede zu analysierende Firma. Mit modernen Textanalysetechniken (NLP) kann dieser Prozess jedoch automatisiert werden, indem Informationen aus frei verfügbaren Textquellen extrahiert werden. Im Forschungsprojekt, in dessen Rahmen diese Masterarbeit erstellt wird, sollen die Möglichkeiten eines solchen Systems erfasst werden. Dazu wurden verschieden Anwendungsfälle festgelegt, von denen in dieser Arbeit die High-Cost/Low-Cost-Standortanalyse behandelt wird. Ziel dieser ist die Erfassung der Wirtschaftlichkeit eines Wettbewerbers auf globaler Ebene.

Zielsetzung der Arbeit

Im Laufe dieser Arbeit sollen mit Deep-Learning-Verfahren, wie BERT, die automatische Standortanalyse erarbeitet werden. Dabei sollen einzelne Standorte nach Land, Stadt und wenn möglich Adresse aufgeschlüsselt werden können. Als Grundlage werden Nachrichten und Websites genutzt. Ziel ist eine mit händischen Analysen gleichwertige Erfassung von Wettbewerberstandorten.

Konkrete Aufgaben

Im Laufe des Projekts soll eine Pipeline zur automatischen Erkennung von Standorten erstellt werden. Dazu müssen in mehreren Schritten unstrukturierte Textdaten erfasst und angebunden werden. Über unterschiedliche NLP-Techniken werden dann Texte klassifiziert, Firmen und Orte erkannt, sowie letztendlich in eine Datenbank mit strukturierten Daten überführt. Hierbei soll auch die automatische Verbesserung der „Deep Learning“-Verfahren mittels strukturierter Daten evaluieret werden. Im letzten Teil werden die erfassten Ergebnisse noch anderen Datenquellen zu Standortdaten verglichen, um die Performanz des Systems zu testen.

Erwartete Vorkenntnisse

Python, NLP, Datenvisualisierungstechniken, SQL-& NoSQL-Datenbanken

Weiterführende Quellen

Zuo, Z., Loster, M., Krestel, R., & Naumann, F. (2017). Uncovering Business Relationships: Context-sensitive Relationship Extraction for Difficult Relationship Types. In LWDA (p. 271).

Wright, J. M., & Mansingh, G. (2014). An Algorithm to Extract Jamaican Geographic Locations from News Articles-Using NLP Techniques. In CONF-IRM (p. 24).

Malmasi, S., & Dras, M. (2015, May). Location mention detection in tweets and microblogs. In Conference of the Pacific Association for Computational Linguistics (pp. 123-134). Springer, Singapore.

Liang, C., Yu, Y., Jiang, H., Er, S., Wang, R., Zhao, T., & Zhang, C. (2020, August). Bond: Bert-assisted open-domain named entity recognition with distant supervision. In Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining (pp. 1054-1064).