Новости переводов
Москва,
ул. Барклая, 13, стр. 2
+7 925 504-71-35 с 9-30 до 17-30
info@flarus.ru | Заказать перевод


Презентация компании
Расчет стоимости перевода






Изменен алгоритм автоматического определителя языка текста, разработанного нашим бюро переводов

Редактор бюро переводов Фларус
Philipp Konnov

29 Марта, 2013
Уже более года в Интернете работает автоматический определитель языка текста Guesser.ru, разработанный нашим бюро переводов. Подведем итоги работы алгоритма определения языка и расскажем о новом алгоритме и принципе работы и методе повышения точности распознавания языка текста.


Первоначально алгоритм определения языка основывался на сравнении слов и словосочетаний загруженного текста с набором слов из нашего онлайн-глоссария. В глоссарии содержатся слова из разных языков, число которых постоянно растет, т.к. глоссарий используется в работе бюро и постоянно пополняется. Каждому слову или фразе глоссария соответствует несколько признаков, один из которых - язык текста. Пара "фраза-язык" называется меткой, которые используются в специальном проекте бюро для поиска похожих переводов, выполненных ранее нашим бюро при принятии в работу нового заказа.

Новый алгоритм определения языка использует более компактную базу данных специально подобранных маркеров языка, которые последовательно сравниваются с загруженным текстом и формируют вероятности определения языков текста. Это не ошибка. Алгоритм действительно определяет все возможные языки, которые могут быть использованы в тексте. Результат определения языка представляет собой таблицу с распределением вероятностей. Текст написан на языке с наибольшей вероятностью.



Новый алгоритм позволяет существенно сократить время определения языка за счет на несколько порядков меньшей по объему базы маркеров, по сравнению с базой фраз глоссария.

С увеличением объема текста точность определителя языка возрастает, т.к. в тексте встречаются уникальные маркеры языка, что повышает вероятность определения какого-либо одного языка и доминирования его в таблице результатов.

Определитель может работать с любыми языками, тогда как старый алгоритм мог определять язык текста, который можно было разделить на слова и сравнить их с базой данных глоссария.

Перерспективы дополнения базы данных маркеров выглядят намного привлекательнее, т.к. для наполнения глоссария требуется набрать порядка 800-2000 слов для приемлемого определения языка текста, что весьма затруднительно для редких языков: арабского, китайского, японского, шведского, финского и других. Редкость этих языков в нашем глоссарии вызвана редкими случаями заказов переводов с этих языков на русский язык. Конечно, в абсолютном значении эти языки редкими не являются.

Более подробное описание работы нового алгоритма определения языка текста вы можете найти на сайте бюро переводов.

Проверить работу определителя языка

Поделиться:


Прислать свою статью Наиболее читаемые Архив
метки: #глоссарий #слово #фраза #язык #определение языка #определитель языка #автоматический определитель языка #текст #проект #Guesser #маркер

Происхождение слова ‘Ditto’ 10404

Важный лейтмотив в известной киноленте 1990 года "Призрак", любимая фраза американского общественного деятеля Раша Лимбо, и название копировальной машины середины 20-го века. Что же это слово означает, и откуда оно взялось?


Компьютеры научатся понимать человеческую письменную речь 3520

Канадские ученые из Университета Конкордия создали уникальную систему под названием BlogSum, которая позволяет компьютерам понимать и анализировать содержание текстов из блогов, форумов и других социальных медиа.


Ученые установили, когда английский язык достиг "совершеннолетия" 4218

Лингвисты из Мариборского университета (Словения) проследили за изменениями в английском языке и, в частности, за употребляемыми в книгах фразами и установили, что на рубеже XVIII и XIX веков список фраз стабилизировался, а печатный язык, по мнению ученых, достиг своего "совершеннолетия".


Викторина о праздничных вечеринках

Каждый третий участник получит по почте сувенир от нашего бюро переводов.


Украинские пограничники получили 10 тыс. разговорников английского языка к Евро-2012 3819

Сотрудникам Государственной пограничной службы Украины выдали 10 тыс. карманных англо-украинских разговорников, разработанных специально к Евро-2012.


Перевод с рэпперского языка: знаменитый рэппер Снуп Догг хочет выпустить собственный словарь 6239

Знаменитый афроамериканский рэппер Снуп Догг (Snoop Dogg) задумался об издании собственного словаря, который будет содержать слова и фразы, используемые рэппером, с подробным объяснением каждой из них.


Ein neues Glossar zur Fußball-WM 4565

Die Dolmetscher aus dem VKD stellen das interaktive Glossar.


Лингвисты и психологи помогают жителям Перми составить текст извинения 3004

В Перми открылась необычная служба, которая помогает всем желающим составить текст извинения, признания в любви и разрешает многие другие деликатные вопросы.


Бранденбургские ворота в Москве 4544

В рамках проекта "Дни Берлина в Москве" каждый россиянин получил возможность оставить свое послание на Бранденбургских воротах.


В джунглях Бразилии живет племя индейцев, в языке которого отсутствует понятие времени 4080

Как показать последовательность совершения событий, не прибегая при этом к привычным нам маркерам настоящего, прошедшего и будущего времени? Как обозначить и отличить события, происходившие вчера, от тех, которые произойдут на следующей неделе? Нам трудно себе представить, какая путаница могла бы произойти, если бы однажды в языке исчезло понятие времени. Однако, оказывается, в Бразилии живет племя индейцев, которое обходится без этого привычного нам понятия.



Показать еще



Translation and Proofreading Services Бюро переводов Фларус, Москва
Последний наш перевод:
"Осушитель воздуха", Гидравлика

метки перевода: давление, компрессор, воздуховод, воздушный.

Переводы в работе: 94
Загрузка бюро: 53%

Поиск по сайту:



В Самаре состоится международная лингвистическая конференция


Александр Богдановский: Единица перевода намного крупнее, чем слово: это фраза, абзац или даже целая книга


Игорь Оранский: Хороший перевод — это когда переводчика в нем нет


Российский филолог удостоен почетной премии в Италии


В Великобритании незрячая 10-летняя девочка владеет пятью языками и учит еще два


Эволюция каждого языкового семейства развивается по своему набору правил


Английский язык давит на все большие языки - лингвист Максим Кронгауз


Подписка на рассылку
избранных новостей
(~1 раз в месяц)



Информативный перевод
Что такое информативный перевод? Подвиды информативного перевода. Особенности и принципы работы переводчика с текстом. Стоимость перевода.



Аббревиатуры, используемые для перевода тендерной документации
Аббревиатуры, используемые для перевода тендерной документации



Викторина по заимствованиям








Компания

О бюро переводов
Письменный перевод
Локализация сайтов
Редактирование
Вычитка носителем языка
Примеры переводов
Вакансии
Контакты



Бюро переводов Фларус
© 2001-2026

Проекты

Работа для переводчиков
Новости переводов
Поздравления с переводом
Разговорник
Глоссарии и словари
Шаблоны переводов
Выставки в Москве

Контакты

Россия, Москва,
ул. Барклая, 13, стр. 2
схема проезда

Телефон:
+7 925 504-71-35

Заказ: info@flarus.ru