Applying Deep Learning to Translation: Building a Low Resource Neural Machine Translation System

Thema:: Applying Deep Learning to Translation: Building a Low Resource Neural Machine Translation System
Art:: MA
BetreuerIn:: Bernd Ludwig
BearbeiterIn:: Fabian Schatz
ErstgutachterIn:: Christian Wolff
ZweitgutachterIn:: N.N.
Status:: abgeschlossen
Stichworte:: Machine Translation, Deep Learning
angelegt:: 2018-11-23
Antrittsvortrag:: 2018-12-10
Abschlussvortrag:: 2019-03-25
Textlizenz:: Unbekannt
Codelizenz:: Unbekannt

Hintergrund

Die immer weiter fortschreitende Globalisierung macht es für Unternehmen unabdingbar ihre Produkte in mehreren Sprachen anzubieten. Hierbei müssen sowohl die Benutzeroberflächen von Computersystemen als auch beispielsweise Bedienungsanleitungen von Produkten beachtet werden. Ebenso werden immer höhere Ansprüche an beispielsweise Sprachassistenten sowie smarten Systemen im Allgemeinen gestellt, wobei auch die Eingabe in beliebiger Sprache höchste Priorität besitzt. Facebook als einer der größten Anbieter von automatisierter Übersetzung hat beispielsweise bereits über 6 Billionen Anfragen pro Tag.

Trotz der großen Fortschritte der globalen Marktführer wie Google, Amazon und Facebook und den entsprechend zur Verfügung gestellten Systemen gilt in bestimmten Bereichen besondere Vorsicht. Dies ist beispielsweise im Bereich des Gesundheitssystems sowie allen anderen Bereichen mit personenbezogenen und sensiblen Daten der Fall. In solchen Fällen können meistens öffentlich verfügbare Systeme aufgrund der Datenproblematik nicht ohne weiteres verwendet werden. Hier müssen also eigene Systeme entwickelt werden, welche auch entsprechend auf die Einsatzdomäne spezifiziert werden können.

Zielsetzung der Arbeit

Ziel dieser Arbeit ist die erfolgreiche Implementierung eines End-to-End Systems zur maschinellen Übersetzung. Auf Grundlage der Evaluation soll abschließend festgestellt werden, ob mit einem Umfang an geringen vorhandenen Ressourcen ein kompetetives State of the Art System entwickelt werden kann.

Konkrete Aufgaben

Erstellen eines bilingualen Trainingsdatensatzes
Preprocessing der Daten
Konzeption und Implementierung von Deep Learning Architekturen
Training mehrerer Modelle
Evaluation der Modelle

Literatur

Arčan, M., & Buitelaar, P. (2017). Translating Domain-Specific Expressions in Knowledge Bases with Neural Machine Translation.
Ba, J. L., Kiros, J. R., & Hinton, G. E. (2016). Layer Normalization. ArXiv:1607.06450 [Cs, Stat]. Retrieved from http://arxiv.org/abs/1607.06450
Bahdanau, D., Cho, K., & Bengio, Y. (2014). Neural Machine Translation by Jointly Learning to Align and Translate. ArXiv:1409.0473 [Cs, Stat]. Retrieved from http://arxiv.org/abs/1409.0473
Britz, D., Goldie, A., Luong, M.-T., & Le, Q. (2017). Massive Exploration of Neural Machine Translation Architectures. ArXiv:1703.03906 [Cs]. Retrieved from http://arxiv.org/abs/1703.03906
Chen, M. X., Firat, O., Bapna, A., Johnson, M., Macherey, W., Foster, G., … Hughes, M. (2018). The Best of Both Worlds: Combining Recent Advances in Neural Machine Translation. ArXiv:1804.09849 [Cs]. Retrieved from http://arxiv.org/abs/1804.09849
Cho, K., van Merrienboer, B., Gulcehre, C., Bahdanau, D., Bougares, F., Schwenk, H., & Bengio, Y. (2014). Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation. ArXiv:1406.1078 [Cs, Stat]. Retrieved from http://arxiv.org/abs/1406.1078
Edunov, S., Ott, M., Auli, M., & Grangier, D. (2018). Understanding Back-Translation at Scale. ArXiv:1808.09381 [Cs]. Retrieved from http://arxiv.org/abs/1808.09381
Hochreiter, S., & Schmidhuber, J. (1997). Long Short-Term Memory. Neural Computation, 9(8), 1735–1780. https://doi.org/10.1162/neco.1997.9.8.1735
Luong, M.-T., & Manning, C. D. (2016). Achieving Open Vocabulary Neural Machine Translation with Hybrid Word-Character Models. ArXiv:1604.00788 [Cs]. Retrieved from http://arxiv.org/abs/1604.00788
Luong, M.-T., Pham, H., & Manning, C. D. (2015). Effective Approaches to Attention-based Neural Machine Translation. ArXiv:1508.04025 [Cs]. Retrieved from http://arxiv.org/abs/1508.04025
Luong, M.-T., Sutskever, I., Le, Q. V., Vinyals, O., & Zaremba, W. (2014). Addressing the Rare Word Problem in Neural Machine Translation. ArXiv:1410.8206 [Cs]. Retrieved from http://arxiv.org/abs/1410.8206
Papineni, K., Roukos, S., Ward, T., & Zhu, W.-J. (2001). BLEU: a method for automatic evaluation of machine translation. In Proceedings of the 40th Annual Meeting on Association for Computational Linguistics - ACL ’02 (p. 311). Philadelphia, Pennsylvania: Association for Computational Linguistics. https://doi.org/10.3115/1073083.1073135
Poncelas, A., Shterionov, D., Way, A., Wenniger, G. M. de B., & Passban, P. (2018). Investigating Backtranslation in Neural Machine Translation. ArXiv:1804.06189 [Cs]. Retrieved from http://arxiv.org/abs/1804.06189
Rumelhart, D. E., Hinton, G. E., & Williams, R. J. (1986). Learning representations by back-propagating errors. Nature, 323(6088), 533–536. https://doi.org/10.1038/323533a0
Sennrich, R., Haddow, B., & Birch, A. (2015a). Improving Neural Machine Translation Models with Monolingual Data. ArXiv:1511.06709 [Cs]. Retrieved from http://arxiv.org/abs/1511.06709
Sennrich, R., Haddow, B., & Birch, A. (2015b). Neural Machine Translation of Rare Words with Subword Units. ArXiv:1508.07909 [Cs]. Retrieved from http://arxiv.org/abs/1508.07909
Shaw, P., Uszkoreit, J., & Vaswani, A. (2018). Self-Attention with Relative Position Representations. ArXiv:1803.02155 [Cs]. Retrieved from http://arxiv.org/abs/1803.02155
Sutskever, I., Vinyals, O., & Le, Q. V. (2014). Sequence to Sequence Learning with Neural Networks. ArXiv:1409.3215 [Cs]. Retrieved from http://arxiv.org/abs/1409.3215
Tang, G., Sennrich, R., & Nivre, J. (2018). An Analysis of Attention Mechanisms: The Case of Word Sense Disambiguation in Neural Machine Translation. ArXiv:1810.07595 [Cs]. Retrieved from http://arxiv.org/abs/1810.07595
Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Polosukhin, I. (2017). Attention Is All You Need. ArXiv:1706.03762 [Cs]. Retrieved from http://arxiv.org/abs/1706.03762
Wang, X., Pham, H., Dai, Z., & Neubig, G. (2018). SwitchOut: an Efficient Data Augmentation Algorithm for Neural Machine Translation. ArXiv:1808.07512 [Cs]. Retrieved from http://arxiv.org/abs/1808.07512
Werbos, P. (1990). Backpropagation through time: what it does and how to do it. Proceedings of the IEEE, 78, 1550–1560. https://doi.org/10.1109/5.58337
Wu, Y., Schuster, M., Chen, Z., Le, Q. V., Norouzi, M., Macherey, W., Dean, J. (2016). Google’s Neural Machine Translation System: Bridging the Gap between Human and Machine Translation. ArXiv:1609.08144 [Cs]. Retrieved from http://arxiv.org/abs/1609.08144
Yu, L. (2018). Tackling Sequence to Sequence Mapping Problems with Neural Networks. ArXiv:1810.10802 [Cs]. Retrieved from http://arxiv.org/abs/1810.10802
Zoph, B., Yuret, D., May, J., & Knight, K. (2016). Transfer Learning for Low-Resource Neural Machine Translation. ArXiv:1604.02201 [Cs]. Retrieved from http://arxiv.org/abs/1604.02201