Using Open-Source LLMs to generate Multiple-Choice Questions for Students' Learning Experience: An Examination of Prompt-Based Approaches

Thema:: Using Open-Source LLMs to generate Multiple-Choice Questions for Students' Learning Experience: An Examination of Prompt-Based Approaches
Art:: MA
BetreuerIn:: Jakob Fehle
BearbeiterIn:: Johanna Ranftl
ErstgutachterIn:: Christian Wolff
ZweitgutachterIn:: Udo Kruschwitz
Status:: in Bearbeitung
Stichworte:: NLP, Large Language Models, Retrieval Augmented Generation, Education
angelegt:: 2023-12-07
Antrittsvortrag:: 2024-03-06

Hintergrund

Die Digitalisierung im Bildungsbereich hat Studierenden einen erweiterten Zugang zu Lernmaterialien wie E-Books, Online-Vorlesungen und Fachzeitschriften ermöglicht. Diese enorme Menge an Informationen kann jedoch überwältigend sein, insbesondere wenn es darum geht, das Wissen effektiv zu strukturieren und zu verinnerlichen. Die Corona-Pandemie hat zusätzlich den Trend hin zu digitalen Prüfungsformaten beschleunigt, und Multiple-Choice-Prüfungen (MCQs) wurden immer häufiger eingesetzt.

Das Thema der Masterarbeit entspringt dem Bedarf, Studierenden Werkzeuge zur Verfügung zu stellen, mit denen sie ihre eigenen Vorlesungsunterlagen nutzen können, um MCQs zu erstellen und gezielt für Prüfungen zu lernen. Die automatische Erstellung solcher Fragen bietet Potenzial zur Effizienzsteigerung, indem es den Lernprozess individualisiert und strukturierter gestaltet. In der heutigen Lernumgebung ist es wichtig, Studierende aktiv in ihren Lernprozess einzubeziehen, und MCQs bieten hier eine effektive Möglichkeit, durch sofortiges Feedback und gezielte Wiederholungen langfristiges Lernen zu fördern.

Zielsetzung der Arbeit

Das Ziel dieser Masterarbeit ist es, ein System zur automatischen Generierung von Multiple-Choice-Fragen (MCQs) aus Vorlesungsmaterialien zu entwickeln und zu evaluieren. Dabei wird der Fokus auf die Anwendung von Open-Source Large Language Models (LLMs) und speziell auf die Nutzung von Retrieval Augmented Generation (RAG) gelegt, um personalisierte und qualitativ hochwertige Fragen zu erzeugen. Durch verschiedene Prompting-Strategien sollen die Effizienz und Relevanz der Fragegenerierung verbessert und das Potenzial von LLMs zur Anpassung an unterschiedliche Lernmaterialien und -kontexte voll ausgeschöpft werden.

Konkrete Aufgaben

Literaturrecherche: Eine umfassende Analyse der bestehenden Forschung zur MCQ-Generierung wird durchgeführt. Dies umfasst sowohl traditionelle NLP-Methoden als auch moderne Ansätze mit Large Language Models (LLMs).

Entwicklung der Anwendung: Der Schwerpunkt liegt auf der Entwicklung eines Systems zur automatischen Erstellung von MCQs mithilfe moderner Open-Source LLMs wie LLAMA3 in Kombination mit Retrieval Augmented Generation (RAG). Dabei wird der folgende Ansatz verfolgt:

LLM-basierter Ansatz: Der Hauptfokus der Arbeit liegt auf der Implementierung und Optimierung von Prompts zur Generierung von MCQs aus hochgeladenen Vorlesungsmaterialien. Es wird eine Pipeline entwickelt, die es ermöglicht, personalisierte MCQs zu erstellen, wobei LLMs in Kombination mit RAG eingesetzt werden.
Traditioneller NLP-Ansatz (Vergleich): Dieser Ansatz dient hauptsächlich als Vergleichsgrundlage und orientiert sich stark an bestehenden Systemen zur Frage- und Distraktorengenerierung. Hier wird keine Neuentwicklung angestrebt, sondern die Methode wird implementiert und mit dem LLM-basierten Ansatz verglichen.

Evaluierung: Die erzeugten MCQs werden sowohl automatisch als auch durch menschliche Testpersonen bewertet. Ein besonderer Fokus liegt dabei auf der Befragung von Studierenden, um die Qualität und Effektivität der generierten Fragen zu beurteilen.

Erwartete Vorkenntnisse

Programmierkenntnisse: Solide Kenntnisse in Python sind erforderlich, da die Implementierung der Systeme auf dieser Sprache basiert.
Kenntnisse in Natural Language Processing (NLP): Grundlegendes Verständnis von NLP-Methoden und -Tools wie SpaCy, NLTK und Transformer-Modellen wird benötigt.
Erfahrung mit Machine Learning Frameworks: Vertrautheit mit Bibliotheken wie Hugging Face Transformers, LangChain oder FAISS ist hilfreich.
Kenntnisse in Prompt Engineering: Erste Erfahrungen im Umgang mit LLMs und der Erstellung von Prompts zur Steuerung der Ausgabe der Modelle sind von Vorteil.
Grundlagen der Evaluation: Kenntnisse zur Durchführung von Evaluationsmethoden, sowohl automatisiert als auch mit menschlichen Testpersonen, sind nützlich für die abschließende Bewertung der Arbeit.

Weiterführende Quellen

Brown, J., Frishkoff, G., & Eskenazi, M. (2005). Automatic question generation for vocabulary assessment. 819–826.
Ch, D. R., & Saha, S. K. (2018). Automatic multiple choice question generation from text: A survey. IEEE Transactions on Learning Technologies, 13(1), 14–25.
Dijkstra, R., Genç, Z., Kayal, S., & Kamps, J. (2022). Reading Comprehension Quiz Generation using Generative Pre-trained Transformers. 4–17.
Jurafsky, D., & Martin, J. H. (o. J.). Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition.
Kalpakchi, D., & Boye, J. (2021). BERT-based distractor generation for Swedish reading comprehension questions using a small-scale dataset. arXiv preprint arXiv:2108.03973.
Vachev, K., Hardalov, M., Karadzhov, G., Georgiev, G., Koychev, I., & Nakov, P. (2022b). Leaf: Multiple-choice question generation. 321–328.
Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, Ł., & Polosukhin, I. (2017). Attention is all you need. Advances in neural information processing systems, 30.