Новости переводов
Москва,
ул. Барклая, 13, стр. 2
+7 495 504-71-35 с 9-30 до 17-30
info@flarus.ru | Заказать перевод


Презентация компании
Расчет стоимости перевода






Изменен алгоритм автоматического определителя языка текста, разработанного нашим бюро переводов

Уже более года в Интернете работает автоматический определитель языка текста Guesser.ru, разработанный нашим бюро переводов. Подведем итоги работы алгоритма определения языка и расскажем о новом алгоритме и принципе работы и методе повышения точности распознавания языка текста.

Philipp Konnov
29 Марта, 2013

Первоначально алгоритм определения языка основывался на сравнении слов и словосочетаний загруженного текста с набором слов из нашего онлайн-глоссария. В глоссарии содержатся слова из разных языков, число которых постоянно растет, т.к. глоссарий используется в работе бюро и постоянно пополняется. Каждому слову или фразе глоссария соответствует несколько признаков, один из которых - язык текста. Пара "фраза-язык" называется меткой, которые используются в специальном проекте бюро для поиска похожих переводов, выполненных ранее нашим бюро при принятии в работу нового заказа.

Новый алгоритм определения языка использует более компактную базу данных специально подобранных маркеров языка, которые последовательно сравниваются с загруженным текстом и формируют вероятности определения языков текста. Это не ошибка. Алгоритм действительно определяет все возможные языки, которые могут быть использованы в тексте. Результат определения языка представляет собой таблицу с распределением вероятностей. Текст написан на языке с наибольшей вероятностью.



Новый алгоритм позволяет существенно сократить время определения языка за счет на несколько порядков меньшей по объему базы маркеров, по сравнению с базой фраз глоссария.

С увеличением объема текста точность определителя языка возрастает, т.к. в тексте встречаются уникальные маркеры языка, что повышает вероятность определения какого-либо одного языка и доминирования его в таблице результатов.

Определитель может работать с любыми языками, тогда как старый алгоритм мог определять язык текста, который можно было разделить на слова и сравнить их с базой данных глоссария.

Перерспективы дополнения базы данных маркеров выглядят намного привлекательнее, т.к. для наполнения глоссария требуется набрать порядка 800-2000 слов для приемлемого определения языка текста, что весьма затруднительно для редких языков: арабского, китайского, японского, шведского, финского и других. Редкость этих языков в нашем глоссарии вызвана редкими случаями заказов переводов с этих языков на русский язык. Конечно, в абсолютном значении эти языки редкими не являются.

Более подробное описание работы нового алгоритма определения языка текста вы можете найти на сайте бюро переводов.

Проверить работу определителя языка

Поделиться:


Прислать свою статью Наиболее читаемые Архив
метки: #глоссарий #слово #фраза #язык #определение языка #определитель языка #автоматический определитель языка #текст #проект #Guesser #маркер


6 китайских сленговых выражений о еде 12677

Есть известная китайская поговорка 民以食为天 – люди почитают пищу как небо. Из этого перевода, можно понять, насколько важна и незаменима еда в жизни китайцев. В данной статье 6 выражений, которые доказывают данное утверждение.


Викторина по американскому школьному сленгу

Каждый третий участник получит по почте сувенир от нашего бюро переводов.


В Казани разработали глоссарий Универсиады-2013 3510

В Казани разработали глоссарий терминов специальной лексики, относящейся к организации и проведению XXVII Всемирных летних игр - Универсиады-2013.


Автоматический определитель языка: как курс лекций в университете помог создать "маркеры" языка 3061

В нашем бюро был разработан автоматический определитель языка Guesser. Если изначально он работал на базе глоссариев, которых за более чем 10 лет работы бюро переводов "Фларус" было создано очень много, то теперь алгоритм определителя основан на маркерах языка.




ABBYY выпустила мобильный разговорник PhraseBooks для iOS 4358

Компания ABBYY Lingvo сообщила о выпуске новой разработки: разговорника PhraseBooks для мобильных устройств на платформе от Apple iOS 5.0 и выше. Приложение поддерживает английский, испанский, немецкий, итальянский и французский языки.


Компьютеры научатся понимать человеческую письменную речь 2970

Канадские ученые из Университета Конкордия создали уникальную систему под названием BlogSum, которая позволяет компьютерам понимать и анализировать содержание текстов из блогов, форумов и других социальных медиа.


Лингвисты назвали главные слова и фразы американского телеэфира сезона 2010-2011 2797

Компания The Global Language Monitor (GLM) составила лингвистический рейтинг, назвав десятку самых популярных слов и фраз американского телеэфира сезона 2010-2011.


Merriam-Webster пополнился новыми словами из интернет-сленга 3499

Очередное издание американского толкового словаря Merriam-Webster пополнилось новыми словами, в числе которых присутствуют термины из интернет-сленга.


Добавлены новые терминологические глоссарии по кулинарии 3760

В терминологическую базу бюро переводов добавлены новые кулинарные глоссарии: пиво, йогурты, соль, чай, кофе, посуда


Трудности перевода: как переводится с английского предложение "James while John had had had had had had had had had had had a better effect on the teacher"? 6471

Ранее мы уже рассматривали предложение на английском языке, состоящее из слова "Buffalo", повторяющегося восемь раз. Тогда речь шла об омонимах и омофонах, которые способны в предложениях создавать сложные конструкции. Теперь перед нами другая языковая загадка, которая решается при правильной расстановке знаков препинания.



Показать еще



شركة ترجمة Бюро за преводи Бюро перакладаў 翻译社 Překladatelská kancelář Übersetzugsbüro Oversættelse bureau Translation and Proofreading Services Agencia de traducciones Käännöstoimisto Бюро переводов Фларус, Москва Agence de traduction მთარგმნელობითი ბიურო Γραφείο μεταφράσεων अनुवाद एजेंसी Prevodilacki biro Fordítóiroda Penerjemahan Biro Agenzia di Traduzioni 翻訳代理店 번역 회사 Аударма бюросы Орчуулгын товчоо Biuro tłumaczeń Agência de tradução Birou de traduceri Преводилачка агенција Prekladateľská agentúra Агентии тарҷумонӣ Tercüme Bürosu Бюро перекладів Văn phòng phiên dịch
Последний наш перевод:
"Научные статьи / Scientific articles ", Научный перевод

метки перевода: методика, результат, обработка.

Переводы в работе: 114
Загрузка бюро: 37%

Поиск по сайту:



В нашем бюро переводов завершен проект "Локализация терминала по торговле акциями Meta Trader"


Лингвисты и психологи помогают жителям Перми составить текст извинения


При переводе с некоторых языков переводчики заново переизобретают текст - Максим Немцов


Санкт-Петербургу требуются переводчики с узбекского и таджикского языков


Английский язык давит на все большие языки - лингвист Максим Кронгауз


Чехи будут учиться иностранным языкам по новому методу "СМС-языки"


Жители 11 регионов России проверят свою грамотность в рамках акции "Тотальный диктант"


Подписка на рассылку
избранных новостей
(~1 раз в месяц)



Вычитка текста носителем армянского языка: перевод, корректура и редактура
Услуги носителя армянского языка, включающие перевод текста, проверку правильности перевода, корректуру и редактуру научных статей, аналитика и локализация веб-сайтов. Стоимость услуг бюро переводов Фларус.



Lens Glossary
Lens Glossary



"Свадебная" викторина








Компания

О бюро переводов
Письменный перевод
Локализация сайтов
Редактирование
Вычитка носителем языка
Примеры переводов
Вакансии
Контакты



Бюро переводов Фларус
© 2001-2024

Проекты

Работа для переводчиков
Новости переводов
Поздравления с переводом
Разговорник
Глоссарии и словари
Шаблоны переводов
Выставки в Москве

Контакты

Россия, Москва,
ул. Барклая, 13, стр. 2
схема проезда

Телефон:
+7 495 504-71-35

Заказ: info@flarus.ru