Новости переводов
Москва,
ул. Барклая, 13, стр. 2
+7 495 504-71-35 с 9-30 до 17-30
info@flarus.ru | Заказать перевод


Презентация компании
Расчет стоимости перевода






Изменен алгоритм автоматического определителя языка текста, разработанного нашим бюро переводов

Уже более года в Интернете работает автоматический определитель языка текста Guesser.ru, разработанный нашим бюро переводов. Подведем итоги работы алгоритма определения языка и расскажем о новом алгоритме и принципе работы и методе повышения точности распознавания языка текста.

Philipp Konnov
29 Марта, 2013

Первоначально алгоритм определения языка основывался на сравнении слов и словосочетаний загруженного текста с набором слов из нашего онлайн-глоссария. В глоссарии содержатся слова из разных языков, число которых постоянно растет, т.к. глоссарий используется в работе бюро и постоянно пополняется. Каждому слову или фразе глоссария соответствует несколько признаков, один из которых - язык текста. Пара "фраза-язык" называется меткой, которые используются в специальном проекте бюро для поиска похожих переводов, выполненных ранее нашим бюро при принятии в работу нового заказа.

Новый алгоритм определения языка использует более компактную базу данных специально подобранных маркеров языка, которые последовательно сравниваются с загруженным текстом и формируют вероятности определения языков текста. Это не ошибка. Алгоритм действительно определяет все возможные языки, которые могут быть использованы в тексте. Результат определения языка представляет собой таблицу с распределением вероятностей. Текст написан на языке с наибольшей вероятностью.



Новый алгоритм позволяет существенно сократить время определения языка за счет на несколько порядков меньшей по объему базы маркеров, по сравнению с базой фраз глоссария.

С увеличением объема текста точность определителя языка возрастает, т.к. в тексте встречаются уникальные маркеры языка, что повышает вероятность определения какого-либо одного языка и доминирования его в таблице результатов.

Определитель может работать с любыми языками, тогда как старый алгоритм мог определять язык текста, который можно было разделить на слова и сравнить их с базой данных глоссария.

Перерспективы дополнения базы данных маркеров выглядят намного привлекательнее, т.к. для наполнения глоссария требуется набрать порядка 800-2000 слов для приемлемого определения языка текста, что весьма затруднительно для редких языков: арабского, китайского, японского, шведского, финского и других. Редкость этих языков в нашем глоссарии вызвана редкими случаями заказов переводов с этих языков на русский язык. Конечно, в абсолютном значении эти языки редкими не являются.

Более подробное описание работы нового алгоритма определения языка текста вы можете найти на сайте бюро переводов.

Проверить работу определителя языка

Поделиться:


Прислать свою статью Наиболее читаемые Архив
метки: #глоссарий #слово #фраза #язык #определение языка #определитель языка #автоматический определитель языка #текст #проект #Guesser #маркер


Межвузовский переводческий конкурс "Poesis" 2341

Кафедра "Теоретической и прикладной лингвистики" БГТУ "ВОЕНМЕХ" им. Д.Ф. Устинова, а также Ассоциация преподавателей перевода впервые проводят студенческий конкурс "Poesis". Дедлайн 20 февраля 2022 года.


"Свадебная" викторина

Каждый третий участник получит по почте сувенир от нашего бюро переводов.


В переводчике Google нашли возможность говорить на диалектах 5971

В онлайн-переводчике Google Translate можно прослушать фразу на различных диалектах языков. Эту "тайную способность" переводчика в исходном коде сервиса нашли авторы неофициального блога Google Operating System, сообщает Lenta.ru.


История переводов: Перевозочные документы, логистика 4649

Сфера логистики становится популярней год от года. Эта часть экономической науки напрямую связана с переводом. В особенности когда речь идет о транспортной логистике – системе по организации доставки товаров и грузов.




Разработано новое приложение для Android и iPhone, выполняющее перевод в режиме реального времени 8756

Компания Quest Visual (США) представила приложение WordLens для Android и iPhone, способное переводить различные фразы на четыре языка в режиме реального времени.


Ошибка перевода Google вернула Мубарака к власти 3297

В Египте проходят выборы президента страны. Однако Google, похоже, заранее представляет результаты выборов, называя президентом Египта Хосни Мубарака. И если бы не серьезные проблемы со здоровьем, 84-летний Мубарак, правивший страной в течение последних 30 лет, вполне мог претендовать на возвращение.


Перевод названий: какая "деревня" простирается почти на 10 млн. кв. км? 2528

Когда французский мореплаватель Жак Картье в 1535 году встретил на дорогу к поселению Стадакона у индейцев лаврентийского племени, живших на территории окрестностей современного Квебека, они указали ему дорогу, назвав само поселение словом "kanata", что в переводе означало "деревня" или "поселение".


Немецким лингвистам покорился перевод арабских надписей 2-тысячелетней давности 3487

Лингвистам Йенского университета удалось расшифровать и выполнить перевод арабских надписей 2-тысячелетней давности, выполненных на пальмовых палочках в форме сигары. Надписи представили впервые возможность ученым познакомиться с письменными источниками доисламского периода арабской истории.


Merriam-Webster представил бесплатный словарь для ОС Android 3357

Американское издательство словарей Merriam-Webster выпустило толковый словарь английского языка для мобильных устройств, использующих операционную систему Android. Приложение распространяется бесплатно и будет полезно тем, кто изучает английский язык.


Французский язык позаимствовал из русского термин "малосольный" 3801

Термин malossol, произошедший от русского слова "малосольный", вошел в последнее издание французского словаря "Пти Ларусс" (Le Petit Larousse) в числе других трех тысяч слов, которые ранее не фигурировали в словаре.



Показать еще



شركة ترجمة Бюро за преводи Бюро перакладаў 翻译社 Překladatelská kancelář Übersetzugsbüro Oversættelse bureau Translation and Proofreading Services Agencia de traducciones Käännöstoimisto Бюро переводов Фларус, Москва Agence de traduction მთარგმნელობითი ბიურო Γραφείο μεταφράσεων अनुवाद एजेंसी Prevodilacki biro Fordítóiroda Penerjemahan Biro Agenzia di Traduzioni 翻訳代理店 번역 회사 Аударма бюросы Орчуулгын товчоо Biuro tłumaczeń Agência de tradução Birou de traduceri Преводилачка агенција Prekladateľská agentúra Агентии тарҷумонӣ Tercüme Bürosu Бюро перекладів Văn phòng phiên dịch
Последний наш перевод:
"Рекламный веб-контент / Advertising web content", Маркетинг и реклама

метки перевода: материал, рекламный, коллекция, мебельный.

Переводы в работе: 110
Загрузка бюро: 25%

Поиск по сайту:



В нашем бюро переводов завершен проект "Локализация терминала по торговле акциями Meta Trader"


Ученые приписали японскому языку корейские корни


Японские гиды-переводчики на всех языках мира приглашают туристов вернуться в страну


Американское агентство DARPA запустило проект по разработке робота-переводчика


В Европе обнаружили древнейшее подтверждение письменности


Анализ машинного перевода и сравнение онлайн-переводчиков - новая жизнь старого проекта.


В Германии назвали "антислово года - 2010"


Подписка на рассылку
избранных новостей
(~1 раз в месяц)



Переводы в нанотехнологической отрасли
Услуги профессиональных переводчиков технических текстов. Стоимость перевода. Особенностью нанотехнологий является их междисциплинарный характер - они объединяют физику, химию, биологию и другие научные дисциплины.



Финансовый глоссарий (отчеты, счета, налоги)
Финансовый глоссарий (отчеты, счета, налоги)



Викторина по заимствованиям








Компания

О бюро переводов
Письменный перевод
Локализация сайтов
Редактирование
Вычитка носителем языка
Примеры переводов
Вакансии
Контакты



Бюро переводов Фларус
© 2001-2023

Проекты

Работа для переводчиков
Новости переводов
Поздравления с переводом
Разговорник
Глоссарии и словари
Шаблоны переводов
Выставки в Москве

Контакты

Россия, Москва,
ул. Барклая, 13, стр. 2
схема проезда

Телефон:
+7 495 504-71-35

Заказ: info@flarus.ru