Новости переводов
Москва,
ул. Барклая, 13, стр. 2
+7 495 504-71-35 с 9-30 до 17-30
info@flarus.ru | Заказать перевод


Презентация компании
Расчет стоимости перевода






Изменен алгоритм автоматического определителя языка текста, разработанного нашим бюро переводов

Уже более года в Интернете работает автоматический определитель языка текста Guesser.ru, разработанный нашим бюро переводов. Подведем итоги работы алгоритма определения языка и расскажем о новом алгоритме и принципе работы и методе повышения точности распознавания языка текста.

Philipp Konnov
29 Марта, 2013

Первоначально алгоритм определения языка основывался на сравнении слов и словосочетаний загруженного текста с набором слов из нашего онлайн-глоссария. В глоссарии содержатся слова из разных языков, число которых постоянно растет, т.к. глоссарий используется в работе бюро и постоянно пополняется. Каждому слову или фразе глоссария соответствует несколько признаков, один из которых - язык текста. Пара "фраза-язык" называется меткой, которые используются в специальном проекте бюро для поиска похожих переводов, выполненных ранее нашим бюро при принятии в работу нового заказа.

Новый алгоритм определения языка использует более компактную базу данных специально подобранных маркеров языка, которые последовательно сравниваются с загруженным текстом и формируют вероятности определения языков текста. Это не ошибка. Алгоритм действительно определяет все возможные языки, которые могут быть использованы в тексте. Результат определения языка представляет собой таблицу с распределением вероятностей. Текст написан на языке с наибольшей вероятностью.



Новый алгоритм позволяет существенно сократить время определения языка за счет на несколько порядков меньшей по объему базы маркеров, по сравнению с базой фраз глоссария.

С увеличением объема текста точность определителя языка возрастает, т.к. в тексте встречаются уникальные маркеры языка, что повышает вероятность определения какого-либо одного языка и доминирования его в таблице результатов.

Определитель может работать с любыми языками, тогда как старый алгоритм мог определять язык текста, который можно было разделить на слова и сравнить их с базой данных глоссария.

Перерспективы дополнения базы данных маркеров выглядят намного привлекательнее, т.к. для наполнения глоссария требуется набрать порядка 800-2000 слов для приемлемого определения языка текста, что весьма затруднительно для редких языков: арабского, китайского, японского, шведского, финского и других. Редкость этих языков в нашем глоссарии вызвана редкими случаями заказов переводов с этих языков на русский язык. Конечно, в абсолютном значении эти языки редкими не являются.

Более подробное описание работы нового алгоритма определения языка текста вы можете найти на сайте бюро переводов.

Проверить работу определителя языка

Поделиться:




Прислать свою статью Наиболее читаемые Архив
метки: #глоссарий #слово #фраза #язык #определение языка #определитель языка #автоматический определитель языка #текст #проект #Guesser #маркер

Правила оформления субтиров: знаки препинания, шрифт, регистр. 9111

Наши редакторы собрали основные правила оформления субтиров, использовав как ГОСТ, так и международные стандарты. Убрали на свой взгляд лишние, сократили остальные.


Различия кириллических алфавитов славянских языков 5275

Специфика принятых в разных славянских странах вариантов кириллицы порой вызывает определенные проблемы. Здесь приводятся основные отличия в алфавитах и произношении наиболее распространенных славянских языков.


Олимпиада в Сочи 2014 - перевод спортивных терминов с английского языка 6403

Несколько примеров перевода с английского языка спортивных терминов, связанных с приближающимися Зимними Олимпийскими играми 2014 в Сочи.


Викторина по Великобритании

Каждый третий участник получит по почте сувенир от нашего бюро переводов.


A glossary of sports terms to be available on the official website of Sochi Winter Olympics 6985

The first version of a specially designed English-Russian glossary of terms, as well as a French-Russian glossary of winter sports is accessible on the official website of the XXII Winter Olymics and XI Winter Paralympics organizing committee.


На официальном сайте зимних Олимпийских игр в Сочи представлен глоссарий спортивных терминов 7146

На официальном сайте Оргкомитета XXII Олимпийских зимних игр и XI Паралимпийских зимних игр 2014 года в городе Сочи представлена первая версия специально разработанного англо-русского глоссария терминов, а также франко-русский глоссарий по зимним видам спорта.


Краткий список неправильно используемых слов английской терминологии в публикациях ЕК 3889

В настоящее время многие языки претерпевают изменения, не исключением является и английский. В частности, на веб-сайте Европейской Комиссии на странице "Translation and Drafting Resources" (Ресурсы по переводу и составлению документов) размещены сноски на различные ресурсы по английской терминологии.


Лингвисты назвали отличительные признаки запоминающихся фраз из кинолент 4012

По заключению ученых из Университета Корнелла (США), популярные цитаты из фильмов обладают рядом общих признаков, таких как грамматическое построение, словарный состав и т.д. Анализу подверглись фразы на английском языке из раздела Memorable quotes на сайте imdb.com.


Трудности перевода: что общего между "кузькиной матерью" и атомными бомбами? 3054

Русская идиома "кузькина мать" получила всемирную известность после знаменитого выступления первого секретаря ЦК КПСС Никиты Сергеевича Хрущева на 15-й Ассамблее ООН 12 октября 1960 года.


При переводе важен контекст 5842

Небольшая заметка о важности контекста при переводе, о возможном возникновении ошибок, если контекст отсутствует или непонятен.



Показать еще



شركة ترجمة Бюро за преводи Бюро перакладаў 翻译社 Překladatelská kancelář Übersetzugsbüro Oversættelse bureau Translation and Proofreading Services Agencia de traducciones Käännöstoimisto Бюро переводов Фларус, Москва Agence de traduction მთარგმნელობითი ბიურო Γραφείο μεταφράσεων अनुवाद एजेंसी Prevodilacki biro Fordítóiroda Penerjemahan Biro Agenzia di Traduzioni 翻訳代理店 번역 회사 Аударма бюросы Орчуулгын товчоо Biuro tłumaczeń Agência de tradução Birou de traduceri Преводилачка агенција Prekladateľská agentúra Агентии тарҷумонӣ Tercüme Bürosu Бюро перекладів Văn phòng phiên dịch
Последний наш перевод:
"Таможенная декларация Турецкой республики", Логистика и перевозки

метки перевода: документация, товарный, организация, торговля, валюта, декларация, стоимость.

Переводы в работе: 108
Загрузка бюро: 53%

Поиск по сайту:



Лингвисты назвали главные слова и фразы американского телеэфира сезона 2010-2011


Самые трудные слова для перевода (Часть 1)


Перевод с рэпперского языка: знаменитый рэппер Снуп Догг хочет выпустить собственный словарь


Пользователи чаще всего переводят с помощью электронных переводчиков личную переписку, бизнес-корреспонденцию и описания товаров


Сервис микроблогов Twitter перевели на русский язык


В Лондоне вручили премию Rossica лучшему молодому зарубежному переводчику русской литературы


Американское агентство DARPA запустило проект по разработке робота-переводчика


Подписка на рассылку
избранных новостей
(~1 раз в месяц)



Оформление математических текстов в LaTeX и Word
Особенности перевода математических текстов с формулами в LaTeX и Word. Стоимость ручного набора формул.



Beer Glossary
Beer Glossary



Лингвистическая викторина на тему турецкого языка








Компания

О бюро переводов
Письменный перевод
Локализация сайтов
Редактирование
Вычитка носителем языка
Примеры переводов
Вакансии
Контакты



Бюро переводов Фларус
© 2001-2025

Проекты

Работа для переводчиков
Новости переводов
Поздравления с переводом
Разговорник
Глоссарии и словари
Шаблоны переводов
Выставки в Москве

Контакты

Россия, Москва,
ул. Барклая, 13, стр. 2
схема проезда

Телефон:
+7 495 504-71-35

Заказ: info@flarus.ru