(Arbeitstitel) Entwicklung eines Tools zur automatisierten Bildklassifikation unter Einsatz multimodaler LLMs
- Thema:
- (Arbeitstitel) Entwicklung eines Tools zur automatisierten Bildklassifikation unter Einsatz multimodaler LLMs
- Art:
- BA
- BetreuerIn:
- Michael Achmann
- BearbeiterIn:
- Lennart-Vincent Bart
- Status:
- Entwurf
- angelegt:
- 2025-06-26
- Antrittsvortrag:
- 2025-07-07
Hintergrund
Die quantitative Analyse visueller Inhalte stellt Forschende vor methodische Herausforderungen. Während die manuelle Klassifikation großer Datenmengen erhebliche Ressourcen erfordert und schwer zu skalieren ist, bleiben automatisierte Verfahren für Anwender ohne technischen Hintergrund oft unzugänglich. Mit dem Aufkommen generativer KI-Modelle haben sich neue Möglichkeiten zur automatisierten Datenanalyse entwickelt. Die technologischen Fortschritte im Bereich der multimodalen Sprachmodelle eröffnen vielversprechende Perspektiven für die automatisierte Analyse visueller Daten.
Zielsetzung der Arbeit
Ziel dieser Arbeit ist die prototypische Entwicklung einer webbasierten Anwendung zur automatisierten Bildklassifikation mittels multimodaler Sprachmodelle. Die Plattform soll speziell für Forschende ohne Programmiererfahrung konzipiert werden und einen niedrigschwelligen Zugang zur KI-gestützten Bildanalyse bieten. Basierend auf einer initialen Anforderungsanalyse in der Zielgruppe erfolgt eine iterative Prototypenentwicklung mit anschließender Nutzer-Evaluation. Die Ergebnisse der Annotationen sollen hinsichtlich der Klassifikations-Qualität verglichen werden können. Die Anwendung soll einen durchgängigen Workflow von der Bildklassifikation bis zur Ergebnisevaluation abbilden.
Konkrete Aufgaben
• Selbstständige Einarbeitung in die Thematik der Bildklassifikation mit multimodalen LLMs • Erhebung von Nutzeranforderungen durch Interviews mit potenziellen Anwendern ohne Programmierkenntnisse • Konzeption und Entwicklung einer prototypischen Webanwendung zur Bildklassifikation • Entwicklung und Durchführung von Evaluationsstudien zur Bewertung der Anwendung • Auswertung der Evaluationsergebnisse und Ableitung von Empfehlungen für die effektive Nutzung der Anwendung • Dokumentation der Implementierung und Studienergebnisse
Erwartete Vorkenntnisse
to be filled…
Weiterführende Quellen
• Zero-Shot Image Classification: Recent Status and Future Trends, Xiaodong Feng, Ying Liu & Tuan Kiang Chiew, 2024 6th International Conference on Natural Language Processing (ICNLP), https://doi.org/10.1109/ICNLP60986.2024.10692717, 2024 • A Survey on Multimodal Large Language Models, Shukang Yin, Chaoyou Fu, Sirui Zhao, Ke Li, Xing Sun, Tong Xu & Enhong Chen, National Science Review, Band 11 Ausgabe 12, https://doi.org/10.1093/nsr/nwae403, 2024 • Zero-Shot Learning – The Good, the Bad and the Ugly, Yongqin Xian, Bernt Schiele & Zeynep Akata, arXiv preprint, https://doi.org/10.48550/arXiv.1703.04394, 2020 • The Evolution of Multimodal Model Architectures, Shakti N. Wadekar, Abhishek Chaurasia, Aman Chadha & Eugenio Culurciello, arXiv preprint, https://doi.org/10.48550/arXiv.2405.17927, 2024