|
|
|
|
|
|
|
|
|
|
Автоматический определитель языка: как курс лекций в университете помог создать "маркеры" языка |
|
|
В нашем бюро был разработан автоматический определитель языка Guesser. Если изначально он работал на базе глоссариев, которых за более чем 10 лет работы бюро переводов "Фларус" было создано очень много, то теперь алгоритм определителя основан на маркерах языка.
Как узнать, на каком языке написан текст? Мне, главному редактору бюро переводов "Фларус", вспоминается университетский курс лекций по славянской филологии, который завершался зачетом. Сам зачет заключался в следующем: студент тянул билет, в котором ему предлагался небольшой (строчек 4-6) отрывок текста на одном из славянских языков. Нужно было определить язык и датировать текст (по веку).
Изначально, конечно, смотришь на то, латиницей или кириллицей написан текст. После данного действия круг языков заметно сужается. Далее обращаешь внимание на различные диакритические знаки, свойственные тому или иному языку, например: ů ("у-кружкована") встречается только в чешском языке; ł (диагонально перечеркнутая буква l) – только в польском и т.д. Также замечаешь те или иные сочетания букв, диграфы и дифтонги, которые относятся к одному языку и не относятся к другому. Так, постепенно, круг языков все более сужается, и вы, наконец, определяете тот самый язык, на котором написан ваш текст.
Принцип работы Guesser похож на вышеописанный. Однако область применения автоматического определителя языка текста распространяется не только на славянские языки, но гораздо шире. В каждом языке мы нашли определенные "маркеры": это и уникальные для данного языка буквы, и диграфы, а также просто частотные сочетания букв. Алгоритм не претендует на научность, так как в виде маркеров выбирались не морфемы, а именно употребляемые рядом буквы. Чтобы пояснить этот момент, приведу пример. Буква "ъ" болгарского алфавита обозначает гласный звук и является омографом русского "ъ" (твердый знак). Определитель языка не видит разницы между болгарским и русским "ъ", потому что буква и в том, и в другом языке пишется одинаково. Однако при введении в болгарский язык маркеров "бъ" и "ър" (такие сочетания не могут встречаться в русском языке) процент верного определения языка значительно возрос.
Проверить работу автоматического определителя языка Guesser можно, перейдя по ссылке.
Если вы видели фильм или читали книгу, то знаете, что «Голодные игры» - мрачная история борьбы за выживание в постапокалиптическом мире. Большая часть повествования происходит в диких лесах, и, видимо, не случайно имена некоторых персонажей фильма представляют собой замечательную этноботаническую коллекцию. |
При переводе сайта на турецкий язык переводчик верстает текст в турецкой локали с нужной кодировкой и проблем при отображении страниц не возникает. Однако, если кодировка сайта другая, то могут возникнуть проблемы с отображением диакритических знаков в турецком языке. Покажем, как эту проблему можно обойти. |
Украинский язык предложили перевести на латиницу с целью скорейшей европеизации Украины. "Если киевские власти решатся на подобный шаг, то страну ждет блестящее будущее, считает лидер партии «5.10, народный депутат Верховной Рады Украины III созыва Геннадий Балашов. |
Канадские ученые из Университета Конкордия создали уникальную систему под названием BlogSum, которая позволяет компьютерам понимать и анализировать содержание текстов из блогов, форумов и других социальных медиа. |
Американское Управление перспективных научных исследований (Intelligence Advanced Research Projects Activity - IARPA) заинтересовалось разработкой программного обеспечения, которое поможет специалистам проникнуть в видение окружающего мира носителей русского, английского, испанского языков, а также фарси, через использование людьми метафор. |
В период с 12 по 14 мая в Самарском Государственном Университете (СамГУ) будет проходить международная лингвистическая конференция, озаглавленная "Язык – текст – дискурс: проблемы интерпретации высказывания в разных коммуникативных сферах", в которой примут участие ученые из России, Белоруссии, Украины, Казахстана, Китая и Германии. |
Парламент Южной Кореи временно отозвал ратификацию двустороннего соглашения о свободной торговле с США по причине обнаружения множества ошибок перевода в корейском тексте документа. |
Есть языки, работая с которыми, переводчик переизобретает текст практически заново. К таким языкам относится, например, японский. Об этом рассказал переводчик Максим Немцов в интервью Афиша.Ру. |
По мнению писателя Евгения Гришковца, в России практически не появляются переводы современной иностранной литературы для детей по причине нехватки высококлассных переводчиков. |
Показать еще
|
|
|
|
| | | | | | | |
|
Последний наш перевод:
"Статья по психологии / Article on psychology", Психология и философия метки перевода:
Переводы в работе: 106 Загрузка бюро: 29% |
|
|
| | | |
|
Экспорт контента сайта на системе Liferay Подготовка контента сайта для перевода на другой язык, локализации и создания языковой версии сайта. Процедура экспорта контента сайта, формат файлов экспорта. Стоимость перевода сайта. |
|
|
| | |
| |
|