Новости переводов
Москва,
ул. Барклая, 13, стр. 2
+7 495 504-71-35 с 9-30 до 17-30
info@flarus.ru | Заказать перевод


Презентация компании
Расчет стоимости перевода






Изменен алгоритм автоматического определителя языка текста, разработанного нашим бюро переводов

Уже более года в Интернете работает автоматический определитель языка текста Guesser.ru, разработанный нашим бюро переводов. Подведем итоги работы алгоритма определения языка и расскажем о новом алгоритме и принципе работы и методе повышения точности распознавания языка текста.

Philipp Konnov
29 Марта, 2013

Первоначально алгоритм определения языка основывался на сравнении слов и словосочетаний загруженного текста с набором слов из нашего онлайн-глоссария. В глоссарии содержатся слова из разных языков, число которых постоянно растет, т.к. глоссарий используется в работе бюро и постоянно пополняется. Каждому слову или фразе глоссария соответствует несколько признаков, один из которых - язык текста. Пара "фраза-язык" называется меткой, которые используются в специальном проекте бюро для поиска похожих переводов, выполненных ранее нашим бюро при принятии в работу нового заказа.

Новый алгоритм определения языка использует более компактную базу данных специально подобранных маркеров языка, которые последовательно сравниваются с загруженным текстом и формируют вероятности определения языков текста. Это не ошибка. Алгоритм действительно определяет все возможные языки, которые могут быть использованы в тексте. Результат определения языка представляет собой таблицу с распределением вероятностей. Текст написан на языке с наибольшей вероятностью.



Новый алгоритм позволяет существенно сократить время определения языка за счет на несколько порядков меньшей по объему базы маркеров, по сравнению с базой фраз глоссария.

С увеличением объема текста точность определителя языка возрастает, т.к. в тексте встречаются уникальные маркеры языка, что повышает вероятность определения какого-либо одного языка и доминирования его в таблице результатов.

Определитель может работать с любыми языками, тогда как старый алгоритм мог определять язык текста, который можно было разделить на слова и сравнить их с базой данных глоссария.

Перерспективы дополнения базы данных маркеров выглядят намного привлекательнее, т.к. для наполнения глоссария требуется набрать порядка 800-2000 слов для приемлемого определения языка текста, что весьма затруднительно для редких языков: арабского, китайского, японского, шведского, финского и других. Редкость этих языков в нашем глоссарии вызвана редкими случаями заказов переводов с этих языков на русский язык. Конечно, в абсолютном значении эти языки редкими не являются.

Более подробное описание работы нового алгоритма определения языка текста вы можете найти на сайте бюро переводов.

Проверить работу определителя языка

Поделиться:


Прислать свою статью Наиболее читаемые Архив
метки: #глоссарий #слово #фраза #язык #определение языка #определитель языка #автоматический определитель языка #текст #проект #Guesser #маркер


Эффект Манделы – и ваши ложные воспоминания – реальны, подтверждают ученые в новом исследовании 4658

В новом исследовании ученые доказывают, что визуальный эффект Манделы — последовательное, уверенное и широко распространенное ложное воспоминание — возникает с известными иконами.


Лингвистическая викторина по языку африкаанс

Каждый третий участник получит по почте сувенир от нашего бюро переводов.


Вопросы по оценке стоимости перевода 1790

У заказчиков переводов часто возникают вопросы о методах оценки стоимости перевода. Мы решили ответить на эти вопросы на нашем новостном сайте и привести ссылки на инструменты, которыми пользуется менеджер бюро для оценки стоимости перевода.


Различия кириллических алфавитов славянских языков 4555

Специфика принятых в разных славянских странах вариантов кириллицы порой вызывает определенные проблемы. Здесь приводятся основные отличия в алфавитах и произношении наиболее распространенных славянских языков.




Ошибка перевода Google вернула Мубарака к власти 3595

В Египте проходят выборы президента страны. Однако Google, похоже, заранее представляет результаты выборов, называя президентом Египта Хосни Мубарака. И если бы не серьезные проблемы со здоровьем, 84-летний Мубарак, правивший страной в течение последних 30 лет, вполне мог претендовать на возвращение.


Украинские пограничники получили 10 тыс. разговорников английского языка к Евро-2012 3027

Сотрудникам Государственной пограничной службы Украины выдали 10 тыс. карманных англо-украинских разговорников, разработанных специально к Евро-2012.


Акция "Тотальный диктант" расширяет свою географию 2675

Образовательная акция "Тотальный диктант", которая состоится в этом году 21 апреля, существенно расширила свою географию. В 2011 году грамотность одновременно проверяли в 13 городах России и в Массачусетском технологическом институте (США). Свою готовность участвовать в нынешнем "Тотальном диктанте" выразили 60 российских городов, а также Лондон, Париж и Окленд (Новая Зеландия).


Трудности перевода: что общего между "кузькиной матерью" и атомными бомбами? 2531

Русская идиома "кузькина мать" получила всемирную известность после знаменитого выступления первого секретаря ЦК КПСС Никиты Сергеевича Хрущева на 15-й Ассамблее ООН 12 октября 1960 года.


Перевод сокращений в деловой лексике немецкого языка 6016

Длинные слова и словосочетания затрудняют их употребление и понимание, поэтому в устной и в письменной речи в целях компрессии (сжатия) для обозначения понятий используются сокращения, зачастую вызывающие сложности у изучающих язык.


Какие слова в русском и других языках по происхождению чешские? 3848

Хотя чешский язык не сильно обогатил лексику других мировых языков, существуют слова, которые использует практически весь мир и которые в отдельных языках стали уже практически неотличимы от исконных.



Показать еще



شركة ترجمة Бюро за преводи Бюро перакладаў 翻译社 Překladatelská kancelář Übersetzugsbüro Oversættelse bureau Translation and Proofreading Services Agencia de traducciones Käännöstoimisto Бюро переводов Фларус, Москва Agence de traduction მთარგმნელობითი ბიურო Γραφείο μεταφράσεων अनुवाद एजेंसी Prevodilacki biro Fordítóiroda Penerjemahan Biro Agenzia di Traduzioni 翻訳代理店 번역 회사 Аударма бюросы Орчуулгын товчоо Biuro tłumaczeń Agência de tradução Birou de traduceri Преводилачка агенција Prekladateľská agentúra Агентии тарҷумонӣ Tercüme Bürosu Бюро перекладів Văn phòng phiên dịch
Последний наш перевод:
"Маркетинговые материалы компании / Company marketing materials ", Маркетинг и реклама

метки перевода: исследование, финансы, капитализация.

Переводы в работе: 74
Загрузка бюро: 61%

Поиск по сайту:



Англоязычная версия слогана Екатеринбурга оказалась более емкой


Немецким лингвистам покорился перевод арабских надписей 2-тысячелетней давности


Трудности перевода: как переводится с английского предложение "James while John had had had had had had had had had had had a better effect on the teacher"?


Французский язык позаимствовал из русского термин "малосольный"


Александр Богдановский: Единица перевода намного крупнее, чем слово: это фраза, абзац или даже целая книга


В Лондоне вручили премию Rossica лучшему молодому зарубежному переводчику русской литературы


Японские гиды-переводчики на всех языках мира приглашают туристов вернуться в страну


Подписка на рассылку
избранных новостей
(~1 раз в месяц)



Услуги письменного перевода на кенийский вариант английского языка
В разных странах говорят английском языке, что привело к множеству уникальных его вариантов. Основные отличия кенийского английского от британского варианта языка. В нашем бюро работают переводчики английского языка из разных стран мира.



Список слов, которые чаще всего пишутся с ошибками в американском английском
Список слов, которые чаще всего пишутся с ошибками в американском английском



Лингвовикторина по интернет-терминам








Компания

О бюро переводов
Письменный перевод
Локализация сайтов
Редактирование
Вычитка носителем языка
Примеры переводов
Вакансии
Контакты



Бюро переводов Фларус
© 2001-2024

Проекты

Работа для переводчиков
Новости переводов
Поздравления с переводом
Разговорник
Глоссарии и словари
Шаблоны переводов
Выставки в Москве

Контакты

Россия, Москва,
ул. Барклая, 13, стр. 2
схема проезда

Телефон:
+7 495 504-71-35

Заказ: info@flarus.ru