Новости переводов
Москва,
ул. Барклая, 13, стр. 2
+7 925 504-71-35 с 9-30 до 17-30
info@flarus.ru | Заказать перевод


Презентация компании
Расчет стоимости перевода






Изменен алгоритм автоматического определителя языка текста, разработанного нашим бюро переводов

Редактор бюро переводов Фларус
Philipp Konnov

29 Марта, 2013
Уже более года в Интернете работает автоматический определитель языка текста Guesser.ru, разработанный нашим бюро переводов. Подведем итоги работы алгоритма определения языка и расскажем о новом алгоритме и принципе работы и методе повышения точности распознавания языка текста.


Первоначально алгоритм определения языка основывался на сравнении слов и словосочетаний загруженного текста с набором слов из нашего онлайн-глоссария. В глоссарии содержатся слова из разных языков, число которых постоянно растет, т.к. глоссарий используется в работе бюро и постоянно пополняется. Каждому слову или фразе глоссария соответствует несколько признаков, один из которых - язык текста. Пара "фраза-язык" называется меткой, которые используются в специальном проекте бюро для поиска похожих переводов, выполненных ранее нашим бюро при принятии в работу нового заказа.

Новый алгоритм определения языка использует более компактную базу данных специально подобранных маркеров языка, которые последовательно сравниваются с загруженным текстом и формируют вероятности определения языков текста. Это не ошибка. Алгоритм действительно определяет все возможные языки, которые могут быть использованы в тексте. Результат определения языка представляет собой таблицу с распределением вероятностей. Текст написан на языке с наибольшей вероятностью.



Новый алгоритм позволяет существенно сократить время определения языка за счет на несколько порядков меньшей по объему базы маркеров, по сравнению с базой фраз глоссария.

С увеличением объема текста точность определителя языка возрастает, т.к. в тексте встречаются уникальные маркеры языка, что повышает вероятность определения какого-либо одного языка и доминирования его в таблице результатов.

Определитель может работать с любыми языками, тогда как старый алгоритм мог определять язык текста, который можно было разделить на слова и сравнить их с базой данных глоссария.

Перерспективы дополнения базы данных маркеров выглядят намного привлекательнее, т.к. для наполнения глоссария требуется набрать порядка 800-2000 слов для приемлемого определения языка текста, что весьма затруднительно для редких языков: арабского, китайского, японского, шведского, финского и других. Редкость этих языков в нашем глоссарии вызвана редкими случаями заказов переводов с этих языков на русский язык. Конечно, в абсолютном значении эти языки редкими не являются.

Более подробное описание работы нового алгоритма определения языка текста вы можете найти на сайте бюро переводов.

Проверить работу определителя языка

Поделиться:


Прислать свою статью Наиболее читаемые Архив
метки: #глоссарий #слово #фраза #язык #определение языка #определитель языка #автоматический определитель языка #текст #проект #Guesser #маркер

Популярные болгарские фразеологизмы 8954

"На върба в сряда или на куково лято цъфтят налъмите" - "В вербную среду или на кукерское лето цветут старые калоши".


A glossary of sports terms to be available on the official website of Sochi Winter Olympics 7268

The first version of a specially designed English-Russian glossary of terms, as well as a French-Russian glossary of winter sports is accessible on the official website of the XXII Winter Olymics and XI Winter Paralympics organizing committee.


Автоматический определитель языка: как курс лекций в университете помог создать "маркеры" языка 3644

В нашем бюро был разработан автоматический определитель языка Guesser. Если изначально он работал на базе глоссариев, которых за более чем 10 лет работы бюро переводов "Фларус" было создано очень много, то теперь алгоритм определителя основан на маркерах языка.


Лингвистическая викторина на тему турецкого языка

Каждый третий участник получит по почте сувенир от нашего бюро переводов.


В сервис перевода Google Translate добавили персональный разговорник 6301

Разработчики компании Google представили новый инструмент в сервисе автоматизированного перевода Google Translate - персональный разговорник Personalized Phrasebook, позволяющий пользователям создавать собственные списки слов и выражений.


История переводов: Перевозочные документы, логистика 6002

Сфера логистики становится популярней год от года. Эта часть экономической науки напрямую связана с переводом. В особенности когда речь идет о транспортной логистике – системе по организации доставки товаров и грузов.


Лингвисты назвали отличительные признаки запоминающихся фраз из кинолент 4179

По заключению ученых из Университета Корнелла (США), популярные цитаты из фильмов обладают рядом общих признаков, таких как грамматическое построение, словарный состав и т.д. Анализу подверглись фразы на английском языке из раздела Memorable quotes на сайте imdb.com.


Лингвисты назвали главные слова и фразы американского телеэфира сезона 2010-2011 3207

Компания The Global Language Monitor (GLM) составила лингвистический рейтинг, назвав десятку самых популярных слов и фраз американского телеэфира сезона 2010-2011.


Американские лингвисты составили словарь ассиро-вавилонского языка 4434

Американские лингвисты и археологи, работавшие под руководством почетного профессора Чикагского университета Роберта Биггса, составили словарь ассиро-вавилонского языка, в который вошло более 28 тыс. слов.


В нашем бюро переводов завершен проект "Локализация терминала по торговле акциями Meta Trader" 3392

Через торговый терминал клиент может получать информацию о торгах на финансовых рынках, проводить технический анализ и совершать торговые операции.



Показать еще



Translation and Proofreading Services Бюро переводов Фларус, Москва
Последний наш перевод:
"Проверка и оценка компетентности", Технический перевод

метки перевода: оценка, компетентность, подводный, проверка, обследование.

Переводы в работе: 76
Загрузка бюро: 53%

Поиск по сайту:



Мастер-класс для молодых переводчиков


В джунглях Бразилии живет племя индейцев, в языке которого отсутствует понятие времени


Соглашение о свободной торговле между Южной Кореей и США не было принято из-за ошибок перевода


В Великобритании незрячая 10-летняя девочка владеет пятью языками и учит еще два


Китайский язык не сможет занять место английского в бизнес-языке


Причина умирания языков - нежелание носителей говорить на них


Теперь в "Яндексе" найдется действительно все - компания запускает активный поиск на английском языке.


Подписка на рассылку
избранных новостей
(~1 раз в месяц)



Неполный перевод: виды и назначение
Неполный перевод, цель которого является передача не всего текста оригинала, а только его ключевых элементов, определяемых конкретной коммуникативной задачей. Виды перевода и стоимость услуг бюро.



Глоссарий авиационных и аэрокосмических терминов
Глоссарий авиационных и аэрокосмических терминов



"Испанская" викторина








Компания

О бюро переводов
Письменный перевод
Локализация сайтов
Редактирование
Вычитка носителем языка
Примеры переводов
Вакансии
Контакты



Бюро переводов Фларус
© 2001-2025

Проекты

Работа для переводчиков
Новости переводов
Поздравления с переводом
Разговорник
Глоссарии и словари
Шаблоны переводов
Выставки в Москве

Контакты

Россия, Москва,
ул. Барклая, 13, стр. 2
схема проезда

Телефон:
+7 925 504-71-35

Заказ: info@flarus.ru