Распространенные языки, недоступные онлайн переводу

Почему несмотря на широкую распространенность некоторых языков, они не находят поддержку в интернете. Так, например, шведский (9,6 миллионов носителей) – обладатель третьей по величине Википедии с более чем 3 миллионами статей, имеет поддержку в Google Translate, Bing Translate, Facebook, Siri, и так далее. Но есть также Одия, официальный язык штата Одиша в Индии, с 38 миллионами носителей, который не присутствует в Google Translate. Или Оромо - язык, на котором говорят около 34 миллионов человек, в основном в Эфиопии, имеет всего 772 статьи в Википедии. Почему греческий, чешский, венгерский, шведский (8 - 13 миллионов носителей) имеют поддержку Google Translate, в то время как языки того же размера или больше, как Бходжпури (51 млн.), Фула (24 млн), Силхета (11 млн.), Кечуа (9 млн.) и Кирунди (9 млн.) не коснулся технологический прогресс?

Отчасти причина в том, что греческий, чешский, венгерский и шведский языки входят в число 24 официальных языков Европейского Союза, а это означает, что переводчики переводят множество официальных документов Европейского парламента каждый год. Документы, переведенные человеком, являются отличной основой для того, что лингвисты называют параллельным корпусом – текст и его переводческие эквиваленты на нескольких языках.

Программы машинного перевода используют параллельные корпуса для определения регулярных соответствий между языками.

В дополнение к документам ЕС, шведский, греческий, венгерский и чешский языки имеют множество языковых ресурсов, созданных на протяжении веков. Это языки целых национальных государств, с записями на национальном телевидении и радио, которые могут быть использованы в качестве основы для моделей преобразования текста в речь.

Распространенные языки, недоступные онлайн переводу

Что означает слово "дзен"? 3637

"Новогодняя" лингвистическая викторина

Атаял и Сидик добавлены в языки Википедии 1918

Студенты из Университета штата Юта создали видеоигру на шошонском языке 2521

Группы аборигенов в Юконе пытаются сохранить свой язык 2984

Перевод на редкие языки: У вымирающего языка сан в ЮАР осталось всего два носителя 2997

Правительство Уэльса ратует за использование валлийского языка в здравоохранении 2717

Отношение к диалектам постепенно изменяется - Максим Кронгауз 2632

Чешская полиция хочет принять на работу носителей языка с Востока 3109

Ученые назвали самые популярные языки мира 3315

Компания

Проекты

Контакты