Inhaltsverzeichnis

Computergestützte Identifikation und Klassifikation von sachpolitischen Bezügen in Social Media Texten

Thema:
Computergestützte Identifikation und Klassifikation von sachpolitischen Bezügen in Social Media Texten
Art:
BA, MA
BetreuerIn:
Michael Achmann
Status:
ausgeschrieben
Stichworte:
Computational Social Science, Political Communication, Text Klassifikation, BERT, GPT, LLM, ML
angelegt:
2024-06-19

Hintergrund

Im Rahmen meiner Doktorarbeit beschäftige ich mich mit der computergestützten Analyse von multimedialen Social Media Daten. Multimodal heißt in diesem Kontext, dass es sich um Bild- und Videodateien handelt, die eine visuelle und bis zu zwei textuelle Inhaltsebenen aufweisen (Bildtext + Audio). Beim vorliegenden Abschlussarbeitsthema wollen wir uns auf die Text-Ebenen konzentrieren. Das Korpus stammt aus dem Bundestagswahlkampf 2021 (oder Landtagswahlkampf Bayern 2023) und umfasst Posts und Stories, die von politischen Akteuren im Wahlkampf auf Instagram gepostet wurden. Zur Analyse der politischen Kommunikation gibt es bereits diverse Arbeiten [1]. Im Rahmen der Abschlussarbeit wollen wir in zwei Schritten klassifizieren 1) ob die Texte sachpolitische Bezüge aufweisen und 2) auf welche Themen sie sich beziehen. Im Vergleich zu menschlichen Annotationen evaluieren wir, wie gut die automatisierte Klassifikation funktioniert. Die Bachelorarbeit fokussiert sich dabei auf methodisch-praktische Umsetzung funktioniert.

Literatur zur politischen Kommunikation auf Instagram stelle ich gerne zur Verfügung. Anleitungen und Jupyter-Notebooks zur Umsetzung stehen bereit, ich habe gerade eine analoge Aufgabenstellung selbst umgesetzt. Für die Bachelorarbeit müssen insbesondere Annotationen gesammelt, und ML-Modelle trainiert werden. Alternativ ist eine Umsetzung mit GPT-Klassifikationen denkbar (auch hier existieren Notebooks). Für die erste Klassifikationsaufgabe gibt es bereits Annotationen, diese müssen ggf. nochmal etwas erweitert werden.

Zielsetzung der Arbeit

Für das vorliegende Thema sollen 2 Modelle trainiert werden: ein Modell zur Identifikation der sachpolitischen Bezüge (z. B. Fine-Tuning gbert-large, binäre Text-Klassifikation), ein Modell zur Klassifikation der politischen Themen (z. B. Fine-Tuning gbert-large, multi-label Token-Klassifikation). Um die Qualität des computergestützten Ansatzes zu validieren, wird es mit menschlichen Annotationen evaluiert. Konkret gibt es also zwei Ziele: 1) Das Training und 2) die Evaluation der Modelle im Vergleich zum Menschen.

Basierend auf Ihren eigenen Interessen wählen wir die Ansätze / Modelle im Rahmen der Sprechstunden gemeinsam aus. Das Thema ließe sich noch z. B. um einen Modellvergleich erweitern, womit es genügend Material für eine MA bietet.

Aus bisherigen Annotationsstudien gibt es bereits Annotationsanleitungen für die erste Aufgabenstellung. Die Labels für die politischen Themen können wir aus der Literatur übernehmen.

Konkrete Aufgaben

Erwartete Vorkenntnisse

Weiterführende Quellen