Новости переводов
Москва,
ул. Барклая, 13, стр. 2
+7 495 504-71-35 с 9-30 до 17-30
info@flarus.ru | Заказать перевод


Презентация компании
Расчет стоимости перевода






Автоматический определитель языка: как курс лекций в университете помог создать "маркеры" языка

В нашем бюро был разработан автоматический определитель языка Guesser. Если изначально он работал на базе глоссариев, которых за более чем 10 лет работы бюро переводов "Фларус" было создано очень много, то теперь алгоритм определителя основан на маркерах языка.

Елена Рябцева
05 Апреля, 2013

Как узнать, на каком языке написан текст? Мне, главному редактору бюро переводов "Фларус", вспоминается университетский курс лекций по славянской филологии, который завершался зачетом. Сам зачет заключался в следующем: студент тянул билет, в котором ему предлагался небольшой (строчек 4-6) отрывок текста на одном из славянских языков. Нужно было определить язык и датировать текст (по веку).



Изначально, конечно, смотришь на то, латиницей или кириллицей написан текст. После данного действия круг языков заметно сужается. Далее обращаешь внимание на различные диакритические знаки, свойственные тому или иному языку, например: ů ("у-кружкована") встречается только в чешском языке; ł (диагонально перечеркнутая буква l) – только в польском и т.д. Также замечаешь те или иные сочетания букв, диграфы и дифтонги, которые относятся к одному языку и не относятся к другому. Так, постепенно, круг языков все более сужается, и вы, наконец, определяете тот самый язык, на котором написан ваш текст.

Принцип работы Guesser похож на вышеописанный. Однако область применения автоматического определителя языка текста распространяется не только на славянские языки, но гораздо шире. В каждом языке мы нашли определенные "маркеры": это и уникальные для данного языка буквы, и диграфы, а также просто частотные сочетания букв. Алгоритм не претендует на научность, так как в виде маркеров выбирались не морфемы, а именно употребляемые рядом буквы. Чтобы пояснить этот момент, приведу пример. Буква "ъ" болгарского алфавита обозначает гласный звук и является омографом русского "ъ" (твердый знак). Определитель языка не видит разницы между болгарским и русским "ъ", потому что буква и в том, и в другом языке пишется одинаково. Однако при введении в болгарский язык маркеров "бъ" и "ър" (такие сочетания не могут встречаться в русском языке) процент верного определения языка значительно возрос.

Проверить работу автоматического определителя языка Guesser можно, перейдя по ссылке.

Поделиться:


Прислать свою статью Наиболее читаемые Архив
метки: #автоматический определитель языка #определитель языка #Guesser #маркер #текст #проект #бюро переводов #буква #дифтонг #диграф #омограф #язык #диакритика #диакритический знак


Какие соцсети чаще всего удаляют контент пользователей? 4838

Дональд Трамп присоединился к тысячам других пользователей социальных сетей, которые были заблокированы или удален их контент.


Лингвовикторина по топонимам в разных языках

Каждый третий участник получит по почте сувенир от нашего бюро переводов.


Особенности верстки макетов презентаций, каталогов на арабском языке в InDesign 1857

Функции для работы с арабским языком доступны в версии программного обеспечения для Ближнего Востока и Северной Африки - версия Middle Eastern.


О диакритических знаках 2324

Две точки над буквой, зачеркнулая Ł, подчеркивания, зачеркивания - все это диакритические знаки, которые порой сильно осложняют работу переводчиков.




Изменен алгоритм автоматического определителя языка текста, разработанного нашим бюро переводов 3433

Уже более года в Интернете работает автоматический определитель языка текста Guesser.ru, разработанный нашим бюро переводов. Подведем итоги работы алгоритма определения языка и расскажем о новом алгоритме и принципе работы и методе повышения точности распознавания языка текста.


Книга Дж. Роулинг выйдет в двух вариантах: с буквой "ё" и без нее 3375

13 февраля в России выйдет "взрослая" книга Дж. К. Роулинг "Случайная вакансия". Произведение будет опубликовано в двух версиях: с буквой "ё" и без нее, сообщают РИА "Новости".


Китайские лингвисты протестуют против включения в китайский словарь англоязычных аббревиатур и их перевода 3680

Группа китайских академиков считает, что из словаря китайского языка следует исключить англоязычные аббревиатуры, которые "загрязняют" китайский язык. Об этом говорится в совместной петиции, которую подписали более сотни ученых из Китая.


Ученые установили, когда английский язык достиг "совершеннолетия" 3475

Лингвисты из Мариборского университета (Словения) проследили за изменениями в английском языке и, в частности, за употребляемыми в книгах фразами и установили, что на рубеже XVIII и XIX веков список фраз стабилизировался, а печатный язык, по мнению ученых, достиг своего "совершеннолетия".


Чехи могут повлиять на новые правила грамматики в интернете 3103

Новую революционную идею выдвинул Институт чешского языка, который предлагает создать новые правила правописания с помощью общественного мнения.


Odkud se vzal háček? 3241

Slovanské jazyky používající latinku, baltské jazyky a některé ugrofinské jazyky využívají nad písmeny tzv. háčku, který mění původní výslovnost písmene a dává mu nový význam. U většiny jazyků, které háček přejaly, hovoříme především o písmenech Č, Š a Ž. V češtině se poté využívají i další grafémy jako Ď, Ě, Ň či Ř.



Показать еще



شركة ترجمة Бюро за преводи Бюро перакладаў 翻译社 Překladatelská kancelář Übersetzugsbüro Oversættelse bureau Translation and Proofreading Services Agencia de traducciones Käännöstoimisto Бюро переводов Фларус, Москва Agence de traduction მთარგმნელობითი ბიურო Γραφείο μεταφράσεων अनुवाद एजेंसी Prevodilacki biro Fordítóiroda Penerjemahan Biro Agenzia di Traduzioni 翻訳代理店 번역 회사 Аударма бюросы Орчуулгын товчоо Biuro tłumaczeń Agência de tradução Birou de traduceri Преводилачка агенција Prekladateľská agentúra Агентии тарҷумонӣ Tercüme Bürosu Бюро перекладів Văn phòng phiên dịch
Последний наш перевод:
"Сертификаты оборудования / Equipment certifications ", Технический перевод

метки перевода:



Переводы в работе: 74
Загрузка бюро: 61%

Поиск по сайту:




Французский роман теряет буквы в переводе на иностранные языки



Казахстанские лингвисты разработали латиницу для интернета


В нашем бюро переводов завершен проект "Локализация терминала по торговле акциями Meta Trader"


В Таджикистане исчезают древние памирские языки


В Лондоне вручили премию Rossica лучшему молодому зарубежному переводчику русской литературы


Язык более не является средством выразительного раскрытия своего внутреннего мира


Интегральный показатель качества работы внештатного переводчика в бюро переводов "Flarus" (т.н. "рейтинг перевочика")


Подписка на рассылку
избранных новостей
(~1 раз в месяц)



Услуги письменного перевода на кенийский вариант английского языка
В разных странах говорят английском языке, что привело к множеству уникальных его вариантов. Основные отличия кенийского английского от британского варианта языка. В нашем бюро работают переводчики английского языка из разных стран мира.



Глоссарий по искусственному интеллекту
Глоссарий по искусственному интеллекту



Лингвовикторина по интернет-терминам








Компания

О бюро переводов
Письменный перевод
Локализация сайтов
Редактирование
Вычитка носителем языка
Примеры переводов
Вакансии
Контакты



Бюро переводов Фларус
© 2001-2024

Проекты

Работа для переводчиков
Новости переводов
Поздравления с переводом
Разговорник
Глоссарии и словари
Шаблоны переводов
Выставки в Москве

Контакты

Россия, Москва,
ул. Барклая, 13, стр. 2
схема проезда

Телефон:
+7 495 504-71-35

Заказ: info@flarus.ru