Новости переводов
Москва,
ул. Барклая, 13, стр. 2
+7 495 504-71-35 с 9-30 до 17-30
info@flarus.ru | Заказать перевод


Презентация компании
Расчет стоимости перевода






Изменен алгоритм автоматического определителя языка текста, разработанного нашим бюро переводов

Уже более года в Интернете работает автоматический определитель языка текста Guesser.ru, разработанный нашим бюро переводов. Подведем итоги работы алгоритма определения языка и расскажем о новом алгоритме и принципе работы и методе повышения точности распознавания языка текста.

Philipp Konnov
29 Марта, 2013

Первоначально алгоритм определения языка основывался на сравнении слов и словосочетаний загруженного текста с набором слов из нашего онлайн-глоссария. В глоссарии содержатся слова из разных языков, число которых постоянно растет, т.к. глоссарий используется в работе бюро и постоянно пополняется. Каждому слову или фразе глоссария соответствует несколько признаков, один из которых - язык текста. Пара "фраза-язык" называется меткой, которые используются в специальном проекте бюро для поиска похожих переводов, выполненных ранее нашим бюро при принятии в работу нового заказа.

Новый алгоритм определения языка использует более компактную базу данных специально подобранных маркеров языка, которые последовательно сравниваются с загруженным текстом и формируют вероятности определения языков текста. Это не ошибка. Алгоритм действительно определяет все возможные языки, которые могут быть использованы в тексте. Результат определения языка представляет собой таблицу с распределением вероятностей. Текст написан на языке с наибольшей вероятностью.



Новый алгоритм позволяет существенно сократить время определения языка за счет на несколько порядков меньшей по объему базы маркеров, по сравнению с базой фраз глоссария.

С увеличением объема текста точность определителя языка возрастает, т.к. в тексте встречаются уникальные маркеры языка, что повышает вероятность определения какого-либо одного языка и доминирования его в таблице результатов.

Определитель может работать с любыми языками, тогда как старый алгоритм мог определять язык текста, который можно было разделить на слова и сравнить их с базой данных глоссария.

Перерспективы дополнения базы данных маркеров выглядят намного привлекательнее, т.к. для наполнения глоссария требуется набрать порядка 800-2000 слов для приемлемого определения языка текста, что весьма затруднительно для редких языков: арабского, китайского, японского, шведского, финского и других. Редкость этих языков в нашем глоссарии вызвана редкими случаями заказов переводов с этих языков на русский язык. Конечно, в абсолютном значении эти языки редкими не являются.

Более подробное описание работы нового алгоритма определения языка текста вы можете найти на сайте бюро переводов.

Проверить работу определителя языка

Поделиться:


Прислать свою статью Наиболее читаемые Архив
метки: #глоссарий #слово #фраза #язык #определение языка #определитель языка #автоматический определитель языка #текст #проект #Guesser #маркер


Особенности верстки макетов презентаций, каталогов на арабском языке в InDesign 1036

Функции для работы с арабским языком доступны в версии программного обеспечения для Ближнего Востока и Северной Африки - версия Middle Eastern.


Викторина по терминам новояза

Каждый третий участник получит по почте сувенир от нашего бюро переводов.


На официальном сайте зимних Олимпийских игр в Сочи представлен глоссарий спортивных терминов 5888

На официальном сайте Оргкомитета XXII Олимпийских зимних игр и XI Паралимпийских зимних игр 2014 года в городе Сочи представлена первая версия специально разработанного англо-русского глоссария терминов, а также франко-русский глоссарий по зимним видам спорта.


Ученые установили, когда английский язык достиг "совершеннолетия" 2834

Лингвисты из Мариборского университета (Словения) проследили за изменениями в английском языке и, в частности, за употребляемыми в книгах фразами и установили, что на рубеже XVIII и XIX веков список фраз стабилизировался, а печатный язык, по мнению ученых, достиг своего "совершеннолетия".




Американские студенты разработали устройство по переводу с языка жестов 2335

Нарушения слуха и речи у людей делают практически невозможным общение с теми, кто не владеет языком жестов. Попытки разработать программы или устройства, которые могли бы помочь в преодолении языкового барьера в общении слабослышащих людей с окружающим миром предпринимались неоднократно. Однако пока ни одно из них не получило широкое распространение.


При чтении на арабском языке участвуют оба полушария мозга 3273

Исследование лингвистов из Университета Хайфы доказало, что человеческий мозг по-разному воспринимает тексты, написанные на различных языках. В частности, различия касаются того, как мозг обрабатывает графические знаки, используемые при написании. В случае арабского языка вовлекаются оба полушария мозга и, таким образом, стимулируется мозговая активность, что способствует всестороннему развитию интеллекта.


Автоматический определитель языка "Guesser" 2558

Коллектив лингвистов и программистов бюро переводов "Flarus" разработал алгоритм автоматического определения языка текста, который является частью единого программного лингвистического комплекса бюро.


Перевод сокращений в деловой лексике немецкого языка 5244

Длинные слова и словосочетания затрудняют их употребление и понимание, поэтому в устной и в письменной речи в целях компрессии (сжатия) для обозначения понятий используются сокращения, зачастую вызывающие сложности у изучающих язык.


Какие слова в русском и других языках по происхождению чешские? 3059

Хотя чешский язык не сильно обогатил лексику других мировых языков, существуют слова, которые использует практически весь мир и которые в отдельных языках стали уже практически неотличимы от исконных.


Какой язык насчитывает наибольшее количество слов? 113779

На сегодняшний день довольно трудно определить, в каком из существующих языков больше всего слов. Проблема заключается в первую очередь в том, что в разных языках под отдельными словами можно понимать словоформы или однокоренные слова, не говоря уже о заимствованиях из других языков, которые за долгие годы употребления плотно интегрируются в словарь определенного языка и перестают восприниматься как иноязычные.



Показать еще



شركة ترجمة Бюро за преводи Бюро перакладаў 翻译社 Překladatelská kancelář Übersetzugsbüro Oversættelse bureau Translation and Proofreading Services Agencia de traducciones Käännöstoimisto Бюро переводов Фларус, Москва Agence de traduction მთარგმნელობითი ბიურო Γραφείο μεταφράσεων अनुवाद एजेंसी Prevodilacki biro Fordítóiroda Penerjemahan Biro Agenzia di Traduzioni 翻訳代理店 번역 회사 Аударма бюросы Орчуулгын товчоо Biuro tłumaczeń Agência de tradução Birou de traduceri Преводилачка агенција Prekladateľská agentúra Tercüme Bürosu Бюро перекладів Văn phòng phiên dịch
Последний наш перевод:
"Благодарственное письмо / Letter of thanks", Пресс-релиз, PR

метки перевода: финансовый, исполнение, нравственный, достижения.

Переводы в работе: 96
Загрузка бюро: 49%

Поиск по сайту:



Лингвисты и переводчики из 28 стран участвуют в международной конференции русистов в Гранаде


Приложение Googles теперь умеет распознавать тексты на русском языке


Ученые приписали японскому языку корейские корни


Александр Богдановский: Единица перевода намного крупнее, чем слово: это фраза, абзац или даже целая книга


Исландия объявила набор переводчиков для перевода законов ЕС


В Киеве стартовали трехсуточные чтения переводов "Дон Кихота" на русский и украинский языки



История символа @ и способы его прочтения в разных языках



Подписка на рассылку
избранных новостей
(~1 раз в месяц)



Услуга расшифровки аудио и видео с верификацией текста переводчиком
Услуга перевода видеоролика заключается в расшифровке голоса в текстовой вид и перевод полученного текста на требуемый язык. В нашем бюро разделяются услуги расшифровки аудио в зависимости от типа и сложности исходного материала.



Глоссарий физических констант
Глоссарий физических констант



"Японская" викторина








Компания

О бюро переводов
Письменный перевод
Локализация сайтов
Редактирование
Вычитка носителем языка
Примеры переводов
Вакансии
Контакты



Бюро переводов Фларус
© 2001-2023

Проекты

Работа для переводчиков
Новости переводов
Поздравления с переводом
Разговорник
Глоссарии и словари
Шаблоны переводов
Выставки в Москве

Контакты

Россия, Москва,
ул. Барклая, 13, стр. 2
схема проезда

Телефон:
+7 495 504-71-35

Заказ: info@flarus.ru