Inhaltsverzeichnis

Evaluation verschiedener Methoden zur Datenaugmentierung für die Aspekt-basierte Sentiment Analyse im Deutschen

Thema:
Evaluation verschiedener Methoden zur Datenaugmentierung für die Aspekt-basierte Sentiment Analyse im Deutschen
Art:
BA, MA
BetreuerIn:
Jakob Fehle
Status:
Entwurf
Stichworte:
Sentiment Analyse, NLP, Data Augmentation
angelegt:
2023-12-15

Hintergrund

Die Aspektbasierte Sentiment Analyse (ABSA) ist eine Methode im Bereich des Natural Language Processing (NLP), die es ermöglicht, Meinungen und Stimmungen in Texten gegenüber spezifischen Aspekte zu identifizieren. Im Gegensatz zur herkömmlichen Sentiment Analyse, die lediglich das allgemeine Sentiment eines Textes ermittelt, fokussiert sich die ABSA auf einzelne Aspekte eines Produkts oder einer Dienstleistung. Dadurch können detaillierte Einblicke in das Feedback zu Produkten und Dienstleistungen gewonnen und gezielt auf die Bedürfnisse und Vorlieben eingegangen werden. Im deutschen Sprachraum stellt sich jedoch die Herausforderung, dass nur wenige ausreichend große und brauchbare Datensätze für die Aspekt-basierte Sentiment Analyse existieren. Zudem ist die manuelle Annotation neuer Datensätze zeit- und kostenintensiv.

Die Augmentierung von Daten ist hierbei eine mögliche Lösung, um aus einer kleinen Menge an annotierten Beispielen eine große Menge an brauchbaren Trainingsdaten zu generieren. Für die Augmentierung existieren verschiedene Ansätze, wie z.B. Back-Translation, Noise-Induction oder Synonym-Replacement, welche bereits in anderen NLP-Bereichen erfolgreich eingesetzt werden konnten. Ziel ist es, kleine Datensätze durch zusätzliche Annotationen oder Samples zu erweitern, um eine effektive Anwendung von ABSA-Methoden zu ermöglichen.

Zielsetzung der Arbeit

Die Zielsetzung dieser Arbeit besteht in einer umfassenden Analyse geeigneter Techniken zur Datenaugmentierung im Kontext der ABSA im Deutschen. Hierzu sollen auch die Auswirkungen der Anwendung dieser Techniken auf potenzielle Methodiken zur Aspekt-basierten Sentiment Analyse untersucht werden. Die verschiedenen Techniken zur Datenaugmentierung sollen auf einen bestehenden Datensatz angewandt werden (oder auf Teile eines vollständigen Datensatzes, um ein „Low Resource Setting“ zu simulieren), und der daraus resultierende, augmentierte Datensatz wird anschließend für das Training von Machine Learning-Modellen für die ABSA verwendet und evaluiert. Ein Vergleich der Ergebnisse soll dazu dienen, die effektivsten Techniken zu identifizieren.

Konkrete Aufgaben

Erwartete Vorkenntnisse

Erfahrungen mit Pyhton und NLP von Vorteil.

Weiterführende Quellen