Implementierung und Evaluation von Speaker Recognition-Systemen

Thema:: Implementierung und Evaluation von Speaker Recognition-Systemen
Art:: MA
BetreuerIn:: Bernd Ludwig
BearbeiterIn:: Tobias Hauser
ErstgutachterIn:: Bernd Ludwig
ZweitgutachterIn:: Christian Wolff
Status:: abgeschlossen
Stichworte:: Speaker Recognition, machine learning, sprachbasierte Dialogsysteme
angelegt:: 2019-05-27
Anmeldung:: 2019-07-11
Antrittsvortrag:: 2019-10-21
Abschlussvortrag:: 2019-12-09
Textlizenz:: Unbekannt
Codelizenz:: Unbekannt

Hintergrund

Die Sprache ist das Organ des individuellen Geistes (Heyse & Steinthal, 1856).

Sprechererkennung dient der Identifikation und/oder der Verifikation von Personen. Daraus resultiert die Möglichkeit, dass Assistenzsysteme die Identität des Nutzers erkennen und so direkt auf spezielle Bedürfnisse reagieren können. Ein System, das den Nutzer erkennt, ihn beim Namen nennt und seine Vorlieben kennt, kann dazu beitragen, moderne Assistenzsystem in Privathaushalte zu bringen und deren Akzeptanz zu steigern.

Zielsetzung der Arbeit

Ziel der Arbeit ist es, ein Speaker Recognition System (SR-System) zu implementieren und gegen bereits bestehende Systeme zu evaluieren. Dabei steht kein fertiges Produkt im Fokus der Arbeit, sondern wie sich ein embedded SR-System auf Basis von GMMs (Gaussian Mixture Models) von anderen Systemen hinsichtlich der Ergebnisse und Laufzeit unterscheidet. Zudem soll das SR-System ressourcenarm hinsichtlich der benötigten Datenmenge und ohne teures Setup (Microphone-Array) implementiert werden.

Konkrete Aufgaben

Implementierung eines Speaker Recognition Systems (x86/arm)
Implementierung der Scripte für die Evaluation des eigenen Systems und aller Provider auf Basis einer K-fold Cross Validation
Gesprochene Sprache als Datengrundlage erheben
Geräusche zum Mixen der gesprochenen Sprache erheben

Erwartete Vorkenntnisse

Machine Learning
Sound Processing

Weiterführende Quellen

Beigi, H. (2011). Fundamentals of speaker recognition. New York: Springer.
Heyse, K. W. L., & Steinthal, H. (1856). System der Sprachwissenschaft. F. Dümmler.
Nayana, P. K., Mathew, D., & Thomas, A. (2017). Comparison of Text Inde-pendent Speaker Identification Systems using GMM and i-Vector Me-thods. Procedia Computer Science, 115, 47–54.
Reynolds, D. A. (2002). An overview of automatic speaker recognition tech-nology. 2002 IEEE International Conference on Acoustics, Speech, and Signal Processing, 4, IV-4072-IV–4075.