Applying Deep Learning to Translation: Building a Low Resource Neural Machine Translation System
- Thema:
- Applying Deep Learning to Translation: Building a Low Resource Neural Machine Translation System
- Art:
- MA
- BetreuerIn:
- Bernd Ludwig
- BearbeiterIn:
- Fabian Schatz
- ErstgutachterIn:
- Christian Wolff
- ZweitgutachterIn:
- N.N.
- Status:
- abgeschlossen
- Stichworte:
- Machine Translation, Deep Learning
- angelegt:
- 2018-11-23
- Antrittsvortrag:
- 2018-12-10
- Abschlussvortrag:
- 2019-03-25
- Textlizenz:
- Unbekannt
- Codelizenz:
- Unbekannt
Hintergrund
Die immer weiter fortschreitende Globalisierung macht es für Unternehmen unabdingbar ihre Produkte in mehreren Sprachen anzubieten. Hierbei müssen sowohl die Benutzeroberflächen von Computersystemen als auch beispielsweise Bedienungsanleitungen von Produkten beachtet werden. Ebenso werden immer höhere Ansprüche an beispielsweise Sprachassistenten sowie smarten Systemen im Allgemeinen gestellt, wobei auch die Eingabe in beliebiger Sprache höchste Priorität besitzt. Facebook als einer der größten Anbieter von automatisierter Übersetzung hat beispielsweise bereits über 6 Billionen Anfragen pro Tag.
Trotz der großen Fortschritte der globalen Marktführer wie Google, Amazon und Facebook und den entsprechend zur Verfügung gestellten Systemen gilt in bestimmten Bereichen besondere Vorsicht. Dies ist beispielsweise im Bereich des Gesundheitssystems sowie allen anderen Bereichen mit personenbezogenen und sensiblen Daten der Fall. In solchen Fällen können meistens öffentlich verfügbare Systeme aufgrund der Datenproblematik nicht ohne weiteres verwendet werden. Hier müssen also eigene Systeme entwickelt werden, welche auch entsprechend auf die Einsatzdomäne spezifiziert werden können.
Zielsetzung der Arbeit
Ziel dieser Arbeit ist die erfolgreiche Implementierung eines End-to-End Systems zur maschinellen Übersetzung. Auf Grundlage der Evaluation soll abschließend festgestellt werden, ob mit einem Umfang an geringen vorhandenen Ressourcen ein kompetetives State of the Art System entwickelt werden kann.
Konkrete Aufgaben
- Erstellen eines bilingualen Trainingsdatensatzes
- Preprocessing der Daten
- Konzeption und Implementierung von Deep Learning Architekturen
- Training mehrerer Modelle
- Evaluation der Modelle
Literatur
- Arčan, M., & Buitelaar, P. (2017). Translating Domain-Specific Expressions in Knowledge Bases with Neural Machine Translation.
- Ba, J. L., Kiros, J. R., & Hinton, G. E. (2016). Layer Normalization. ArXiv:1607.06450 [Cs, Stat]. Retrieved from http://arxiv.org/abs/1607.06450
- Bahdanau, D., Cho, K., & Bengio, Y. (2014). Neural Machine Translation by Jointly Learning to Align and Translate. ArXiv:1409.0473 [Cs, Stat]. Retrieved from http://arxiv.org/abs/1409.0473
- Britz, D., Goldie, A., Luong, M.-T., & Le, Q. (2017). Massive Exploration of Neural Machine Translation Architectures. ArXiv:1703.03906 [Cs]. Retrieved from http://arxiv.org/abs/1703.03906
- Chen, M. X., Firat, O., Bapna, A., Johnson, M., Macherey, W., Foster, G., … Hughes, M. (2018). The Best of Both Worlds: Combining Recent Advances in Neural Machine Translation. ArXiv:1804.09849 [Cs]. Retrieved from http://arxiv.org/abs/1804.09849
- Cho, K., van Merrienboer, B., Gulcehre, C., Bahdanau, D., Bougares, F., Schwenk, H., & Bengio, Y. (2014). Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation. ArXiv:1406.1078 [Cs, Stat]. Retrieved from http://arxiv.org/abs/1406.1078
- Edunov, S., Ott, M., Auli, M., & Grangier, D. (2018). Understanding Back-Translation at Scale. ArXiv:1808.09381 [Cs]. Retrieved from http://arxiv.org/abs/1808.09381
- Hochreiter, S., & Schmidhuber, J. (1997). Long Short-Term Memory. Neural Computation, 9(8), 1735–1780. https://doi.org/10.1162/neco.1997.9.8.1735
- Luong, M.-T., & Manning, C. D. (2016). Achieving Open Vocabulary Neural Machine Translation with Hybrid Word-Character Models. ArXiv:1604.00788 [Cs]. Retrieved from http://arxiv.org/abs/1604.00788
- Luong, M.-T., Pham, H., & Manning, C. D. (2015). Effective Approaches to Attention-based Neural Machine Translation. ArXiv:1508.04025 [Cs]. Retrieved from http://arxiv.org/abs/1508.04025
- Luong, M.-T., Sutskever, I., Le, Q. V., Vinyals, O., & Zaremba, W. (2014). Addressing the Rare Word Problem in Neural Machine Translation. ArXiv:1410.8206 [Cs]. Retrieved from http://arxiv.org/abs/1410.8206
- Papineni, K., Roukos, S., Ward, T., & Zhu, W.-J. (2001). BLEU: a method for automatic evaluation of machine translation. In Proceedings of the 40th Annual Meeting on Association for Computational Linguistics - ACL ’02 (p. 311). Philadelphia, Pennsylvania: Association for Computational Linguistics. https://doi.org/10.3115/1073083.1073135
- Poncelas, A., Shterionov, D., Way, A., Wenniger, G. M. de B., & Passban, P. (2018). Investigating Backtranslation in Neural Machine Translation. ArXiv:1804.06189 [Cs]. Retrieved from http://arxiv.org/abs/1804.06189
- Rumelhart, D. E., Hinton, G. E., & Williams, R. J. (1986). Learning representations by back-propagating errors. Nature, 323(6088), 533–536. https://doi.org/10.1038/323533a0
- Sennrich, R., Haddow, B., & Birch, A. (2015a). Improving Neural Machine Translation Models with Monolingual Data. ArXiv:1511.06709 [Cs]. Retrieved from http://arxiv.org/abs/1511.06709
- Sennrich, R., Haddow, B., & Birch, A. (2015b). Neural Machine Translation of Rare Words with Subword Units. ArXiv:1508.07909 [Cs]. Retrieved from http://arxiv.org/abs/1508.07909
- Shaw, P., Uszkoreit, J., & Vaswani, A. (2018). Self-Attention with Relative Position Representations. ArXiv:1803.02155 [Cs]. Retrieved from http://arxiv.org/abs/1803.02155
- Sutskever, I., Vinyals, O., & Le, Q. V. (2014). Sequence to Sequence Learning with Neural Networks. ArXiv:1409.3215 [Cs]. Retrieved from http://arxiv.org/abs/1409.3215
- Tang, G., Sennrich, R., & Nivre, J. (2018). An Analysis of Attention Mechanisms: The Case of Word Sense Disambiguation in Neural Machine Translation. ArXiv:1810.07595 [Cs]. Retrieved from http://arxiv.org/abs/1810.07595
- Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Polosukhin, I. (2017). Attention Is All You Need. ArXiv:1706.03762 [Cs]. Retrieved from http://arxiv.org/abs/1706.03762
- Wang, X., Pham, H., Dai, Z., & Neubig, G. (2018). SwitchOut: an Efficient Data Augmentation Algorithm for Neural Machine Translation. ArXiv:1808.07512 [Cs]. Retrieved from http://arxiv.org/abs/1808.07512
- Werbos, P. (1990). Backpropagation through time: what it does and how to do it. Proceedings of the IEEE, 78, 1550–1560. https://doi.org/10.1109/5.58337
- Wu, Y., Schuster, M., Chen, Z., Le, Q. V., Norouzi, M., Macherey, W., Dean, J. (2016). Google’s Neural Machine Translation System: Bridging the Gap between Human and Machine Translation. ArXiv:1609.08144 [Cs]. Retrieved from http://arxiv.org/abs/1609.08144
- Yu, L. (2018). Tackling Sequence to Sequence Mapping Problems with Neural Networks. ArXiv:1810.10802 [Cs]. Retrieved from http://arxiv.org/abs/1810.10802
- Zoph, B., Yuret, D., May, J., & Knight, K. (2016). Transfer Learning for Low-Resource Neural Machine Translation. ArXiv:1604.02201 [Cs]. Retrieved from http://arxiv.org/abs/1604.02201