Почему несмотря на широкую распространенность некоторых языков, они не находят поддержку в интернете. Так, например, шведский (9,6 миллионов носителей) – обладатель третьей по величине Википедии с более чем 3 миллионами статей, имеет поддержку в Google Translate, Bing Translate, Facebook, Siri, и так далее. Но есть также Одия, официальный язык штата Одиша в Индии, с 38 миллионами носителей, который не присутствует в Google Translate. Или Оромо - язык, на котором говорят около 34 миллионов человек, в основном в Эфиопии, имеет всего 772 статьи в Википедии. Почему греческий, чешский, венгерский, шведский (8 - 13 миллионов носителей) имеют поддержку Google Translate, в то время как языки того же размера или больше, как Бходжпури (51 млн.), Фула (24 млн), Силхета (11 млн.), Кечуа (9 млн.) и Кирунди (9 млн.) не коснулся технологический прогресс?
Отчасти причина в том, что греческий, чешский, венгерский и шведский языки входят в число 24 официальных языков Европейского Союза, а это означает, что переводчики переводят множество официальных документов Европейского парламента каждый год. Документы, переведенные человеком, являются отличной основой для того, что лингвисты называют параллельным корпусом – текст и его переводческие эквиваленты на нескольких языках.
Программы машинного перевода используют параллельные корпуса для определения регулярных соответствий между языками.
В дополнение к документам ЕС, шведский, греческий, венгерский и чешский языки имеют множество языковых ресурсов, созданных на протяжении веков. Это языки целых национальных государств, с записями на национальном телевидении и радио, которые могут быть использованы в качестве основы для моделей преобразования текста в речь.