Новости переводов
Москва,
ул. Барклая, 13, стр. 2
+7 495 504-71-35 с 9-30 до 17-30
info@flarus.ru | Заказать перевод


Презентация компании
Расчет стоимости перевода






Автоматический определитель языка: как курс лекций в университете помог создать "маркеры" языка

В нашем бюро был разработан автоматический определитель языка Guesser. Если изначально он работал на базе глоссариев, которых за более чем 10 лет работы бюро переводов "Фларус" было создано очень много, то теперь алгоритм определителя основан на маркерах языка.

Елена Рябцева
05 Апреля, 2013

Как узнать, на каком языке написан текст? Мне, главному редактору бюро переводов "Фларус", вспоминается университетский курс лекций по славянской филологии, который завершался зачетом. Сам зачет заключался в следующем: студент тянул билет, в котором ему предлагался небольшой (строчек 4-6) отрывок текста на одном из славянских языков. Нужно было определить язык и датировать текст (по веку).



Изначально, конечно, смотришь на то, латиницей или кириллицей написан текст. После данного действия круг языков заметно сужается. Далее обращаешь внимание на различные диакритические знаки, свойственные тому или иному языку, например: ů ("у-кружкована") встречается только в чешском языке; ł (диагонально перечеркнутая буква l) – только в польском и т.д. Также замечаешь те или иные сочетания букв, диграфы и дифтонги, которые относятся к одному языку и не относятся к другому. Так, постепенно, круг языков все более сужается, и вы, наконец, определяете тот самый язык, на котором написан ваш текст.

Принцип работы Guesser похож на вышеописанный. Однако область применения автоматического определителя языка текста распространяется не только на славянские языки, но гораздо шире. В каждом языке мы нашли определенные "маркеры": это и уникальные для данного языка буквы, и диграфы, а также просто частотные сочетания букв. Алгоритм не претендует на научность, так как в виде маркеров выбирались не морфемы, а именно употребляемые рядом буквы. Чтобы пояснить этот момент, приведу пример. Буква "ъ" болгарского алфавита обозначает гласный звук и является омографом русского "ъ" (твердый знак). Определитель языка не видит разницы между болгарским и русским "ъ", потому что буква и в том, и в другом языке пишется одинаково. Однако при введении в болгарский язык маркеров "бъ" и "ър" (такие сочетания не могут встречаться в русском языке) процент верного определения языка значительно возрос.

Проверить работу автоматического определителя языка Guesser можно, перейдя по ссылке.

Поделиться:


Прислать свою статью Наиболее читаемые Архив
метки: #автоматический определитель языка #определитель языка #Guesser #маркер #текст #проект #бюро переводов #буква #дифтонг #диграф #омограф #язык #диакритика #диакритический знак


Что обозначают имена героев «Голодных игр» в переводе? 12277

Если вы видели фильм или читали книгу, то знаете, что «Голодные игры» - мрачная история борьбы за выживание в постапокалиптическом мире. Большая часть повествования происходит в диких лесах, и, видимо, не случайно имена некоторых персонажей фильма представляют собой замечательную этноботаническую коллекцию.


Викторина по буквальному переводу

Каждый третий участник получит по почте сувенир от нашего бюро переводов.


Перевод сайта на турецкий язык - диакритические символы и их коды 1374

При переводе сайта на турецкий язык переводчик верстает текст в турецкой локали с нужной кодировкой и проблем при отображении страниц не возникает. Однако, если кодировка сайта другая, то могут возникнуть проблемы с отображением диакритических знаков в турецком языке. Покажем, как эту проблему можно обойти.


Украинский язык предложили перевести на латиницу 2866

Украинский язык предложили перевести на латиницу с целью скорейшей европеизации Украины. "Если киевские власти решатся на подобный шаг, то страну ждет блестящее будущее, считает лидер партии «5.10, народный депутат Верховной Рады Украины III созыва Геннадий Балашов.




Компьютеры научатся понимать человеческую письменную речь 2931

Канадские ученые из Университета Конкордия создали уникальную систему под названием BlogSum, которая позволяет компьютерам понимать и анализировать содержание текстов из блогов, форумов и других социальных медиа.


Американская разведка заинтересовалась метафорами 2692

Американское Управление перспективных научных исследований (Intelligence Advanced Research Projects Activity - IARPA) заинтересовалось разработкой программного обеспечения, которое поможет специалистам проникнуть в видение окружающего мира носителей русского, английского, испанского языков, а также фарси, через использование людьми метафор.


В Самаре состоится международная лингвистическая конференция 5238

В период с 12 по 14 мая в Самарском Государственном Университете (СамГУ) будет проходить международная лингвистическая конференция, озаглавленная "Язык – текст – дискурс: проблемы интерпретации высказывания в разных коммуникативных сферах", в которой примут участие ученые из России, Белоруссии, Украины, Казахстана, Китая и Германии.


Соглашение о свободной торговле между Южной Кореей и США не было принято из-за ошибок перевода 2556

Парламент Южной Кореи временно отозвал ратификацию двустороннего соглашения о свободной торговле с США по причине обнаружения множества ошибок перевода в корейском тексте документа.


При переводе с некоторых языков переводчики заново переизобретают текст - Максим Немцов 5071

Есть языки, работая с которыми, переводчик переизобретает текст практически заново. К таким языкам относится, например, японский. Об этом рассказал переводчик Максим Немцов в интервью Афиша.Ру.


Новая детская иностранная литература в России практически не появляется из-за нехватки переводчиков - Евгений Гришковец 3520

По мнению писателя Евгения Гришковца, в России практически не появляются переводы современной иностранной литературы для детей по причине нехватки высококлассных переводчиков.



Показать еще



شركة ترجمة Бюро за преводи Бюро перакладаў 翻译社 Překladatelská kancelář Übersetzugsbüro Oversættelse bureau Translation and Proofreading Services Agencia de traducciones Käännöstoimisto Бюро переводов Фларус, Москва Agence de traduction მთარგმნელობითი ბიურო Γραφείο μεταφράσεων अनुवाद एजेंसी Prevodilacki biro Fordítóiroda Penerjemahan Biro Agenzia di Traduzioni 翻訳代理店 번역 회사 Аударма бюросы Орчуулгын товчоо Biuro tłumaczeń Agência de tradução Birou de traduceri Преводилачка агенција Prekladateľská agentúra Агентии тарҷумонӣ Tercüme Bürosu Бюро перекладів Văn phòng phiên dịch
Последний наш перевод:
"Статья по психологии / Article on psychology", Психология и философия

метки перевода:



Переводы в работе: 106
Загрузка бюро: 29%

Поиск по сайту:



Сервис микроблогов Twitter перевели на русский язык


Английский язык давит на все большие языки - лингвист Максим Кронгауз


Американское агентство DARPA запустило проект по разработке робота-переводчика


Интегральный показатель качества работы внештатного переводчика в бюро переводов "Flarus" (т.н. "рейтинг перевочика")


Буква "Ё" отметила свой 227 день рождения


Переводческий аутсорсинг


Мы на профессиональном уровне занимаемся переводом патентов, патентных заявок, описаний изобретений, формул изобретений и чертежей к ним.


Подписка на рассылку
избранных новостей
(~1 раз в месяц)



Экспорт контента сайта на системе Liferay
Подготовка контента сайта для перевода на другой язык, локализации и создания языковой версии сайта. Процедура экспорта контента сайта, формат файлов экспорта. Стоимость перевода сайта.



Глоссарий терминов по телефонии
Глоссарий терминов по телефонии



Лингвовикторина по терминам путешественников








Компания

О бюро переводов
Письменный перевод
Локализация сайтов
Редактирование
Вычитка носителем языка
Примеры переводов
Вакансии
Контакты



Бюро переводов Фларус
© 2001-2024

Проекты

Работа для переводчиков
Новости переводов
Поздравления с переводом
Разговорник
Глоссарии и словари
Шаблоны переводов
Выставки в Москве

Контакты

Россия, Москва,
ул. Барклая, 13, стр. 2
схема проезда

Телефон:
+7 495 504-71-35

Заказ: info@flarus.ru