Автоматический определитель языка: как курс лекций в университете помог создать "маркеры" языка

Как узнать, на каком языке написан текст? Мне, главному редактору бюро переводов "Фларус", вспоминается университетский курс лекций по славянской филологии, который завершался зачетом. Сам зачет заключался в следующем: студент тянул билет, в котором ему предлагался небольшой (строчек 4-6) отрывок текста на одном из славянских языков. Нужно было определить язык и датировать текст (по веку).

Изначально, конечно, смотришь на то, латиницей или кириллицей написан текст. После данного действия круг языков заметно сужается. Далее обращаешь внимание на различные диакритические знаки, свойственные тому или иному языку, например: ů ("у-кружкована") встречается только в чешском языке; ł (диагонально перечеркнутая буква l) – только в польском и т.д. Также замечаешь те или иные сочетания букв, диграфы и дифтонги, которые относятся к одному языку и не относятся к другому. Так, постепенно, круг языков все более сужается, и вы, наконец, определяете тот самый язык, на котором написан ваш текст.

Принцип работы Guesser похож на вышеописанный. Однако область применения автоматического определителя языка текста распространяется не только на славянские языки, но гораздо шире. В каждом языке мы нашли определенные "маркеры": это и уникальные для данного языка буквы, и диграфы, а также просто частотные сочетания букв. Алгоритм не претендует на научность, так как в виде маркеров выбирались не морфемы, а именно употребляемые рядом буквы. Чтобы пояснить этот момент, приведу пример. Буква "ъ" болгарского алфавита обозначает гласный звук и является омографом русского "ъ" (твердый знак). Определитель языка не видит разницы между болгарским и русским "ъ", потому что буква и в том, и в другом языке пишется одинаково. Однако при введении в болгарский язык маркеров "бъ" и "ър" (такие сочетания не могут встречаться в русском языке) процент верного определения языка значительно возрос.

Проверить работу автоматического определителя языка Guesser можно, перейдя по ссылке.

Изменен алгоритм автоматического определителя языка текста, разработанного нашим бюро переводов

3433

Уже более года в Интернете работает автоматический определитель языка текста Guesser.ru, разработанный нашим бюро переводов. Подведем итоги работы алгоритма определения языка и расскажем о новом алгоритме и принципе работы и методе повышения точности распознавания языка текста.

Книга Дж. Роулинг выйдет в двух вариантах: с буквой "ё" и без нее

3375

13 февраля в России выйдет "взрослая" книга Дж. К. Роулинг "Случайная вакансия". Произведение будет опубликовано в двух версиях: с буквой "ё" и без нее, сообщают РИА "Новости".

Китайские лингвисты протестуют против включения в китайский словарь англоязычных аббревиатур и их перевода

3680

Группа китайских академиков считает, что из словаря китайского языка следует исключить англоязычные аббревиатуры, которые "загрязняют" китайский язык. Об этом говорится в совместной петиции, которую подписали более сотни ученых из Китая.

Ученые установили, когда английский язык достиг "совершеннолетия"

3475

Лингвисты из Мариборского университета (Словения) проследили за изменениями в английском языке и, в частности, за употребляемыми в книгах фразами и установили, что на рубеже XVIII и XIX веков список фраз стабилизировался, а печатный язык, по мнению ученых, достиг своего "совершеннолетия".

Odkud se vzal háček?

3241

Slovanské jazyky používající latinku, baltské jazyky a některé ugrofinské jazyky využívají nad písmeny tzv. háčku, který mění původní výslovnost písmene a dává mu nový význam. U většiny jazyků, které háček přejaly, hovoříme především o písmenech Č, Š a Ž. V češtině se poté využívají i další grafémy jako Ď, Ě, Ň či Ř.

Контакты