arbeiten:computergestuetzte_identifikation_und_klassifikation_von_sachpolitischen_bezuegen_in_social_media_texten

Computergestützte Identifikation und Klassifikation von sachpolitischen Bezügen in Social Media Texten

Thema:
Computergestützte Identifikation und Klassifikation von sachpolitischen Bezügen in Social Media Texten
Art:
BA, MA
BetreuerIn:
Michael Achmann
Status:
ausgeschrieben
Stichworte:
Computational Social Science, Political Communication, Text Klassifikation, BERT, GPT, LLM, ML
angelegt:
2024-06-19

Hintergrund

Im Rahmen meiner Doktorarbeit beschäftige ich mich mit der computergestützten Analyse von multimedialen Social Media Daten. Multimodal heißt in diesem Kontext, dass es sich um Bild- und Videodateien handelt, die eine visuelle und bis zu zwei textuelle Inhaltsebenen aufweisen (Bildtext + Audio). Beim vorliegenden Abschlussarbeitsthema wollen wir uns auf die Text-Ebenen konzentrieren. Das Korpus stammt aus dem Bundestagswahlkampf 2021 (oder Landtagswahlkampf Bayern 2023) und umfasst Posts und Stories, die von politischen Akteuren im Wahlkampf auf Instagram gepostet wurden. Zur Analyse der politischen Kommunikation gibt es bereits diverse Arbeiten [1]. Im Rahmen der Abschlussarbeit wollen wir in zwei Schritten klassifizieren 1) ob die Texte sachpolitische Bezüge aufweisen und 2) auf welche Themen sie sich beziehen. Im Vergleich zu menschlichen Annotationen evaluieren wir, wie gut die automatisierte Klassifikation funktioniert. Die Bachelorarbeit fokussiert sich dabei auf methodisch-praktische Umsetzung funktioniert.

Literatur zur politischen Kommunikation auf Instagram stelle ich gerne zur Verfügung. Anleitungen und Jupyter-Notebooks zur Umsetzung stehen bereit, ich habe gerade eine analoge Aufgabenstellung selbst umgesetzt. Für die Bachelorarbeit müssen insbesondere Annotationen gesammelt, und ML-Modelle trainiert werden. Alternativ ist eine Umsetzung mit GPT-Klassifikationen denkbar (auch hier existieren Notebooks). Für die erste Klassifikationsaufgabe gibt es bereits Annotationen, diese müssen ggf. nochmal etwas erweitert werden.

Zielsetzung der Arbeit

Für das vorliegende Thema sollen 2 Modelle trainiert werden: ein Modell zur Identifikation der sachpolitischen Bezüge (z. B. Fine-Tuning gbert-large, binäre Text-Klassifikation), ein Modell zur Klassifikation der politischen Themen (z. B. Fine-Tuning gbert-large, multi-label Token-Klassifikation). Um die Qualität des computergestützten Ansatzes zu validieren, wird es mit menschlichen Annotationen evaluiert. Konkret gibt es also zwei Ziele: 1) Das Training und 2) die Evaluation der Modelle im Vergleich zum Menschen.

Basierend auf Ihren eigenen Interessen wählen wir die Ansätze / Modelle im Rahmen der Sprechstunden gemeinsam aus. Das Thema ließe sich noch z. B. um einen Modellvergleich erweitern, womit es genügend Material für eine MA bietet.

Aus bisherigen Annotationsstudien gibt es bereits Annotationsanleitungen für die erste Aufgabenstellung. Die Labels für die politischen Themen können wir aus der Literatur übernehmen.

Konkrete Aufgaben

  • Selbstständige Einarbeitung in das Thema, unterstützt durch bereitgestellte Literatur zur Theorie und Praxis (Tutorials auf https://social-media-lab.net/). Auch der Datensatz wird bereitgestellt.
  • Erstellen einer Annotationsstudie, um einen Ground Truth (Gold Standard) Datensatz zu erstellen: Erarbeitung der Annotationsanleitung und softwaregestützte Sammlung der Annotationsdaten über das VP-Stunden-System.
  • Kontrolle der Annotationsqualität und eventuelle Überarbeitung der Annotationsanleitung
  • Implementierung des Klassifikationsmodells / Erarbeitung einer passenden Prompt. Modell- / Prompt-Design und Annotationsstudie müssen aufeinander abgestimmt werden!
  • Kontrolle der Klassifikationsqualität und eventuelle Überarbeitung der Prompts / Modell.
  • Bericht und Interpretation der Annotations- und Klassifikationsqualität (=Results).
  • Einordnung der Ergebnisse in die bestehende Literatur (=Discussion).

Erwartete Vorkenntnisse

  • Python-Kenntnisse von Vorteil.
  • Erste Erfahrungen mit LLMs und Prompting von Vorteil.
  • Umsetzung in Jupyter Notebooks mit Python und pandas.

Weiterführende Quellen

  • [1] Bast, J. (2021). Politicians, Parties, and Government Representatives on Instagram: A Review of Research Approaches, Usage Patterns, and Effects. Review of Communication Research, 9. https://www.rcommunicationr.org/index.php/rcr/article/view/108
  • Haßler, J., Kümpel, A. S., & Keller, J. (2021). Instagram and political campaigning in the 2017 German federal election. A quantitative content analysis of German top politicians’ and parliamentary parties’ posts. Information, Communication and Society, 1–21.
  • Haßler, J., Wurst, A.-K., & Pohl, K. (2023). Politicians over issues? Visual personalization in three Instagram election campaigns. Information, Communication and Society, 1–21.
  • Achmann, M., & Wolff, C. (2023). Policy issues vs. Documentation: Using BERTopic to gain insight in the political communication in Instagram stories and posts during the 2021 German Federal election campaign. Digital Humanities in the Nordic and Baltic Countries Publications, 5(1), 11–28.
  • Towner, T. L., & Muñoz, C. L. (2022). A Long Story Short: An Analysis of Instagram Stories during the 2020 Campaigns. Journal of Political Marketing, 1–14.
  • Kawintiranon, K., & Singh, L. (2022). PoliBERTweet: A Pre-trained Language Model for Analyzing Political Content on Twitter. In N. Calzolari, F. Béchet, P. Blache, K. Choukri, C. Cieri, T. Declerck, S. Goggi, H. Isahara, B. Maegaard, J. Mariani, H. Mazo, J. Odijk, & S. Piperidis (Dir.), Proceedings of the Thirteenth Language Resources and Evaluation Conference (p. 7360–7367). Marseille, France: European Language Resources Association.
  • Chatsiou, K. (2020). Text Classification of Manifestos and COVID-19 Press Briefings using BERT and Convolutional Neural Networks. arXiv: Computation and Language.