Проводился эксперимент, сравнивающий нейронные машинные переводы с человеческими переводами. Эксперимент состоял в ранжировании 55 документов и 120 предложений из китайско-английского набора тестов WMT 2017.
Документы и предложения оцениваются в одноязычных (только на целевом языке) и двуязычных (как на исходном, так и на целевом языке) условиях. Оценщиками являются профессиональные переводчики с опытом работы.
В одноязычных условиях переводчики предпочитали текст, созданный человеком, как с точки зрения построения предложений, так и документов в целом. В двуязычном состоянии рейтинги переводчиков продемонстрировали значительное предпочтение человеческого перевода по сравнению с машинным переводом при оценке документов.
Однако при оценке перевода отдельных предложений машинный перевод достигает паритета с человеческим. Это впечатляет, но необходимо учитывать два важных аспекта.
Во-первых, авторы опасаются делать вывод о том, что результаты могут заставить нас думать, что машина работает лучше с точки зрения адекватности.
Во-вторых, оценки на уровне предложения может быть недостаточно, поскольку текстовый, культурный и другие контексты не учитываются в машинном переводе.
Дополняя контекст до уровня документа, машинный перевод сможет улучшить согласованность и связность переведенного текста. NMT на уровне документа может избежать некоторых ошибок, которые невозможно распознать на уровне предложений.
Эти выводы подтверждают необходимость продолжения исследований на уровне перевода целых документов.