Нейронный машинный перевод

Нейронный машинный перевод (англ. Neural Machine Translation, NMT) — подход к машинному переводу, в котором используется большая искусственная нейронная сеть. Он отличается от методов машинного перевода, основанных на статистике фраз, которые используют отдельно разработанные подкомпоненты[1].

Описание

Сервисы перевода компаний Google, Яндекс, Microsoft и PROMT[2] уже используют нейронный перевод. Google использует нейронный машинный перевод Google (GNMT) вместо ранее используемых статистических методов.[3] Майкрософт использует похожую технологию для перевода речи (в том числе в Майкрософт Переводчике и Skype Переводчике).[4] Гарвардской группой по обработке естественного языка была выпущена OpenNMT, система нейронного машинного перевода с открытым исходным кодом[5]. Яндекс.Переводчик имеет гибридную модель: свой вариант перевода предлагает и статистическая модель, и нейросеть. После этого технология CatBoost, в основе которой лежит машинное обучение, будет выбирать лучший из полученных результатов[6].

Модели NMT используют глубинное обучение и обучение признакам. Для их работы требуется лишь малая часть памяти по сравнению с традиционными системами статистического машинного перевода (SMT). Кроме того, в отличие от традиционных систем перевода, все части модели нейронного перевода обучаются совместно (от начала до конца), чтобы максимизировать эффективность перевода[7][8][9].

Двунаправленная рекуррентная нейронная сеть (RNN), также известная как кодировщик, используется нейронной сетью для кодирования исходного предложения для второй рекуррентной сети, также известной как декодировщик, которая используется для предсказания слов в конечном языке[10].

История

Ранние подходы

В 1987 году Роберт Б. Аллен продемонстрировал использование нейронных сетей с прямой связью для перевода автоматически сгенерированных английских предложений с ограниченным словарным запасом в 31 слово на испанский язык. В данном эксперименте размер входного и выходного уровней сети выбирался таким, чтобы он был достаточным для самых длинных предложений на исходном и конечном языках соответственно, поскольку в сети не было никакого механизма для кодирования последовательностей произвольной длины в представление фиксированного размера. В своём резюме Аллен уже намекал на возможность использования автоассоциативных моделей, одна из которых предназначена для кодирования источника, а другая — для декодирования цели[11].

Лонни Крисман развил работу Аллена в 1991 году, обучив отдельные сети рекурсивной автоассоциативной памяти (RAAM) (разработанные Джорданом Б. Поллаком[12]) для исходного и конечного языков. Каждая из сетей RAAM обучена кодировать предложение произвольной длины в скрытое представление фиксированного размера и снова декодировать исходное предложение из этого представления. Кроме того, две сети также обучены совместно использовать скрытое представление; таким образом, исходный кодер может создавать представление, которое целевой декодер может декодировать[13]. В 1997 году Форкада и Неко упростили эту процедуру, чтобы напрямую обучить исходный кодер и целевой декодер тому, что они назвали рекурсивной гетероассоциативной памятью[14].

Также в 1997 году Кастаньо и Касакуберта использовали рекуррентную нейронную сеть Элмана в другой задаче машинного перевода с весьма ограниченным словарным запасом и сложностью[15][16].

Несмотря на то, что эти ранние подходы уже были похожи на современные NMT, вычислительных ресурсов того времени было недостаточно для обработки наборов данных, достаточно больших для решения вычислительной сложности задачи машинного перевода реальных текстов[17][18]. Вместо этого в 1990-х и 2000-х годах появились другие методы, такие как статистический машинный перевод (SMT).

Гибридные подходы

В то время, когда SMT был широко распространён, в некоторых работах использовались нейронные методы для замены различных частей статистического машинного перевода, в то же время все ещё использовался логарифмический линейный подход для их объединения[17][18]. Например, в различных работах совместно с другими исследователями Хольгер Швенк заменил обычную n-граммовую языковую модель[англ.] на нейронную и оценивал вероятности перевода фраз с помощью сети обратной связи[19].

См. также

Примечания

  1. Wołk, Krzysztof; Marasek, Krzysztof. Neural-based Machine Translation for Medical Text Domain. Based on European Medicines Agency Leaflet Texts (англ.) // Procedia Computer Science : journal. — 2015. — Vol. 64, no. 64. — P. 2—9. — doi:10.1016/j.procs.2015.08.456.
  2. Нейронные сети, офлайн-переводчики и конкуренция. Технологии машинного перевода. Дата обращения: 26 апреля 2019. Архивировано 26 апреля 2019 года.
  3. Lewis-Kraus, Gideon (14 декабря 2016). "The Great A.I. Awakening". The New York Times. Архивировано 5 мая 2017. Дата обращения: 4 мая 2017.
  4. Microsoft Translator launching Neural Network based translations for all its speech languages – Translator. Дата обращения: 4 мая 2017. Архивировано 10 мая 2017 года.
  5. OpenNMT - Open-Source Neural Machine Translation (англ.). opennmt.net. Дата обращения: 22 марта 2017. Архивировано 16 марта 2017 года.
  6. В «Яндекс.Переводчик» встроили нейросеть с фантазией - CNews. Дата обращения: 8 октября 2017. Архивировано 8 октября 2017 года.
  7. Kalchbrenner, Nal; Blunsom, Philip. Recurrent Continuous Translation Models (неопр.) // Proceedings of the Association for Computational Linguistics. — 2013. Архивировано 23 ноября 2019 года.
  8. Sutskever, Ilya; Vinyals, Oriol; Le, Quoc Viet. Sequence to sequence learning with neural networks (неопр.) // NIPS. — 2014. Архивировано 29 апреля 2017 года.
  9. Kyunghyun Cho; Bart van Merrienboer; Dzmitry Bahdanau; Yoshua Bengio (2014-09-03). "On the Properties of Neural Machine Translation: Encoder–Decoder Approaches". arXiv:1409.1259 [cs.CL].
  10. Dzmitry Bahdanau; Cho Kyunghyun; Yoshua Bengio (2014). "Neural Machine Translation by Jointly Learning to Align and Translate". arXiv:1409.0473 [cs.CL].
  11. (PDF) Several Studies on Natural Language and Back Propagation (англ.). ResearchGate. Дата обращения: 28 января 2025.
  12. Lonnie Chrisman. Learning Recursive Distributed Representations for Holistic Computation (англ.) // Connection Science. — 1991-01. — Vol. 3, iss. 4. — P. 345–366. — ISSN 0954-0091. — doi:10.1080/09540099108946592.
  13. Jordan B. Pollack. Recursive distributed representations (англ.) // Artificial Intelligence. — 1990-11. — Vol. 46, iss. 1-2. — P. 77–105. — doi:10.1016/0004-3702(90)90005-K.
  14. Mikel L. Forcada, Ramón P. Ñeco. Recursive hetero-associative memories for translation // Biological and Artificial Computation: From Neuroscience to Technology / José Mira, Roberto Moreno-Díaz, Joan Cabestany. — Berlin, Heidelberg: Springer Berlin Heidelberg, 1997. — Т. 1240. — С. 453–462. — ISBN 978-3-540-63047-0. — doi:10.1007/bfb0032504.
  15. Asuncion Castano, Francisco Casacuberta. A connectionist approach to machine translation (англ.). — ISCA, 1997-09-22. — P. 91–94. — doi:10.21437/Eurospeech.1997-50.
  16. Asunción Castaño, Francisco Casacuberta, Enrique Vidal. Machine translation using neural networks and finite-state models // Proceedings of the 7th Conference on Theoretical and Methodological Issues in Machine Translation of Natural Languages. — St John's College, Santa Fe: ?? Not mentionned on TOC, 1997-07-23.
  17. 1 2 Book: Neural Machine Translation. www2.statmt.org P. 39. Дата обращения: 28 января 2025.
  18. 1 2 Shuoheng Yang, Yuxin Wang, Xiaowen Chu. A Survey of Deep Learning Techniques for Neural Machine Translation. — 2020. — doi:10.48550/ARXIV.2002.07526.
  19. Holger Schwenk. Continuous Space Translation Models for Phrase-Based Statistical Machine Translation // Proceedings of COLING 2012: Posters / Martin Kay, Christian Boitet. — Mumbai, India: The COLING 2012 Organizing Committee, 2012-12. — С. 1071–1080.

Ссылки