Новости переводов
Москва,
ул. Барклая, 13, стр. 2
+7 495 504-71-35 с 9-30 до 17-30
info@flarus.ru | Заказать перевод


Презентация компании
Расчет стоимости перевода






Автоматический определитель языка: как курс лекций в университете помог создать "маркеры" языка

В нашем бюро был разработан автоматический определитель языка Guesser. Если изначально он работал на базе глоссариев, которых за более чем 10 лет работы бюро переводов "Фларус" было создано очень много, то теперь алгоритм определителя основан на маркерах языка.

Елена Рябцева
05 Апреля, 2013

Как узнать, на каком языке написан текст? Мне, главному редактору бюро переводов "Фларус", вспоминается университетский курс лекций по славянской филологии, который завершался зачетом. Сам зачет заключался в следующем: студент тянул билет, в котором ему предлагался небольшой (строчек 4-6) отрывок текста на одном из славянских языков. Нужно было определить язык и датировать текст (по веку).



Изначально, конечно, смотришь на то, латиницей или кириллицей написан текст. После данного действия круг языков заметно сужается. Далее обращаешь внимание на различные диакритические знаки, свойственные тому или иному языку, например: ů ("у-кружкована") встречается только в чешском языке; ł (диагонально перечеркнутая буква l) – только в польском и т.д. Также замечаешь те или иные сочетания букв, диграфы и дифтонги, которые относятся к одному языку и не относятся к другому. Так, постепенно, круг языков все более сужается, и вы, наконец, определяете тот самый язык, на котором написан ваш текст.

Принцип работы Guesser похож на вышеописанный. Однако область применения автоматического определителя языка текста распространяется не только на славянские языки, но гораздо шире. В каждом языке мы нашли определенные "маркеры": это и уникальные для данного языка буквы, и диграфы, а также просто частотные сочетания букв. Алгоритм не претендует на научность, так как в виде маркеров выбирались не морфемы, а именно употребляемые рядом буквы. Чтобы пояснить этот момент, приведу пример. Буква "ъ" болгарского алфавита обозначает гласный звук и является омографом русского "ъ" (твердый знак). Определитель языка не видит разницы между болгарским и русским "ъ", потому что буква и в том, и в другом языке пишется одинаково. Однако при введении в болгарский язык маркеров "бъ" и "ър" (такие сочетания не могут встречаться в русском языке) процент верного определения языка значительно возрос.

Проверить работу автоматического определителя языка Guesser можно, перейдя по ссылке.

Поделиться:


Прислать свою статью Наиболее читаемые Архив
метки: #автоматический определитель языка #определитель языка #Guesser #маркер #текст #проект #бюро переводов #буква #дифтонг #диграф #омограф #язык #диакритика #диакритический знак


Международный конкурс перевода для студентов 3613

Переводчик должен быть как стекло, такое прозрачное, что его не видно. Николай Гоголь


"Арабская" лингвовикторина

Каждый третий участник получит по почте сувенир от нашего бюро переводов.


Перевод сайта на турецкий язык - диакритические символы и их коды 1386

При переводе сайта на турецкий язык переводчик верстает текст в турецкой локали с нужной кодировкой и проблем при отображении страниц не возникает. Однако, если кодировка сайта другая, то могут возникнуть проблемы с отображением диакритических знаков в турецком языке. Покажем, как эту проблему можно обойти.


Изменен алгоритм автоматического определителя языка текста, разработанного нашим бюро переводов 3486

Уже более года в Интернете работает автоматический определитель языка текста Guesser.ru, разработанный нашим бюро переводов. Подведем итоги работы алгоритма определения языка и расскажем о новом алгоритме и принципе работы и методе повышения точности распознавания языка текста.




Книга Дж. Роулинг выйдет в двух вариантах: с буквой "ё" и без нее 3428

13 февраля в России выйдет "взрослая" книга Дж. К. Роулинг "Случайная вакансия". Произведение будет опубликовано в двух версиях: с буквой "ё" и без нее, сообщают РИА "Новости".


В Азербайджане предлагают внести изменения в алфавит 3696

По мнению руководителя Института языкознания Национальной академии наук Азербайджана (НАНА) Фахреддина Вейселли, в латинскую графику азербайджанского алфавита необходимо внести ряд изменений для того, чтобы избавиться от лишних знаков.


В Казахстане сторонники языковой реформы предложили урезать алфавит на 14 букв 3150

В Казахстане сторонники языковой реформы предложили урезать алфавит на 14 букв. Инициатива подробно изложена на казахоязычном сайте Абай.Kz.


Эксперты опубликовали список худших компьютерных паролей 2805

Эксперты по кибербезопасности из компании SplashData составили список плохих паролей, которыми пользуются тысячи людей в интернете, не подозревая, что эти пароли не способны защитить их личную информацию даже от начинающих хакеров.


Лингвисты и переводчики из 28 стран участвуют в международной конференции русистов в Гранаде 4115

В эти дни в испанском городе Гранада проходит Международная конференция русистов, озаглавленная "Язык, ментальность и текст в современной русистике", на которую съехалось свыше двухсот лингвистов и переводчиков из 28 стран мира.


5-летняя девочка-вундеркинд из США стремится овладеть всеми официальными языками ООН 4540

5-летняя девочка-вундеркинд из США знает семь языков, а в будущем хочет овладеть в совершенстве всеми официальными языками ООН.



Показать еще



شركة ترجمة Бюро за преводи Бюро перакладаў 翻译社 Překladatelská kancelář Übersetzugsbüro Oversættelse bureau Translation and Proofreading Services Agencia de traducciones Käännöstoimisto Бюро переводов Фларус, Москва Agence de traduction მთარგმნელობითი ბიურო Γραφείο μεταφράσεων अनुवाद एजेंसी Prevodilacki biro Fordítóiroda Penerjemahan Biro Agenzia di Traduzioni 翻訳代理店 번역 회사 Аударма бюросы Орчуулгын товчоо Biuro tłumaczeń Agência de tradução Birou de traduceri Преводилачка агенција Prekladateľská agentúra Агентии тарҷумонӣ Tercüme Bürosu Бюро перекладів Văn phòng phiên dịch
Последний наш перевод:
"Медицинские исследования / Medical research ", Медицинский перевод

метки перевода: результат, комплекс, медицинский.

Переводы в работе: 98
Загрузка бюро: 43%

Поиск по сайту:



Игорь Оранский: Хороший перевод — это когда переводчика в нем нет


При переводе с некоторых языков переводчики заново переизобретают текст - Максим Немцов


Новая детская иностранная литература в России практически не появляется из-за нехватки переводчиков - Евгений Гришковец


В Забайкалье провели конкурс среди молодых поэтов-переводчиков


Буква "Ё" отметила свой 227 день рождения


Russia's energy-based economy sank by 8%


Переводчик Dilmanc


Подписка на рассылку
избранных новостей
(~1 раз в месяц)



Услуги редактирования PowerPoint презентаций
Особенности вычитки и редактирования презентации в формате pptx. Как отредактировать презентацию в режиме отображения правок?



Accounting, Audit & Finance Glossary
Accounting, Audit & Finance Glossary



Викторина по Великобритании








Компания

О бюро переводов
Письменный перевод
Локализация сайтов
Редактирование
Вычитка носителем языка
Примеры переводов
Вакансии
Контакты



Бюро переводов Фларус
© 2001-2024

Проекты

Работа для переводчиков
Новости переводов
Поздравления с переводом
Разговорник
Глоссарии и словари
Шаблоны переводов
Выставки в Москве

Контакты

Россия, Москва,
ул. Барклая, 13, стр. 2
схема проезда

Телефон:
+7 495 504-71-35

Заказ: info@flarus.ru