Новости переводов
Москва,
ул. Большая Молчановка, 34 стр.2, оф. 25
+7 495 504-71-35 с 9-30 до 17-30
info@flarus.ru | Заказать перевод
Презентация компании
Расчет стоимости перевода


Изменен алгоритм автоматического определителя языка текста, разработанного нашим бюро переводов

Уже более года в Интернете работает автоматический определитель языка текста Guesser.ru, разработанный нашим бюро переводов. Подведем итоги работы алгоритма определения языка и расскажем о новом алгоритме и принципе работы и методе повышения точности распознавания языка текста.

Ph. Linn
29 Марта, 2013

Первоначально алгоритм определения языка основывался на сравнении слов и словосочетаний загруженного текста с набором слов из нашего онлайн-глоссария. В глоссарии содержатся слова из разных языков, число которых постоянно растет, т.к. глоссарий используется в работе бюро и постоянно пополняется. Каждому слову или фразе глоссария соответствует несколько признаков, один из которых - язык текста. Пара "фраза-язык" называется меткой, которые используются в специальном проекте бюро для поиска похожих переводов, выполненных ранее нашим бюро при принятии в работу нового заказа.

Новый алгоритм определения языка использует более компактную базу данных специально подобранных маркеров языка, которые последовательно сравниваются с загруженным текстом и формируют вероятности определения языков текста. Это не ошибка. Алгоритм действительно определяет все возможные языки, которые могут быть использованы в тексте. Результат определения языка представляет собой таблицу с распределением вероятностей. Текст написан на языке с наибольшей вероятностью.



Новый алгоритм позволяет существенно сократить время определения языка за счет на несколько порядков меньшей по объему базы маркеров, по сравнению с базой фраз глоссария.

С увеличением объема текста точность определителя языка возрастает, т.к. в тексте встречаются уникальные маркеры языка, что повышает вероятность определения какого-либо одного языка и доминирования его в таблице результатов.

Определитель может работать с любыми языками, тогда как старый алгоритм мог определять язык текста, который можно было разделить на слова и сравнить их с базой данных глоссария.

Перерспективы дополнения базы данных маркеров выглядят намного привлекательнее, т.к. для наполнения глоссария требуется набрать порядка 800-2000 слов для приемлемого определения языка текста, что весьма затруднительно для редких языков: арабского, китайского, японского, шведского, финского и других. Редкость этих языков в нашем глоссарии вызвана редкими случаями заказов переводов с этих языков на русский язык. Конечно, в абсолютном значении эти языки редкими не являются.

Более подробное описание работы нового алгоритма определения языка текста вы можете найти на сайте бюро переводов.

Проверить работу определителя языка


Поделиться:




Немецкая орфорграфия: Как печатать умлауты

Вопрос, который рано или поздно возникает у любого изучающего немецкий язык: как писать умлауты (нем. Umlaut, в простонародье - две точки над буквой) на английской раскладке клавиатуры? В нашей статье предлагается несколько способов решения этой проблемы.


Голосовой переводчик Vocre доступен для Android

myLanguage – компания, занимающаяся многоязыковыми решениями для перевода текстовых и голосовых материалов, выпустила версию программы Vocre для платформы Android. Ранее это приложение было доступно только на iOS.


Merriam-Webster пополнился новыми словами из интернет-сленга

Очередное издание американского толкового словаря Merriam-Webster пополнилось новыми словами, в числе которых присутствуют термины из интернет-сленга.


"Музыкальная" викторина

Примите участие в нашей викторине!
Каждый третий участник получит по почте сувенир от нашего бюро переводов.




Самые трудные слова для перевода (Часть 2)

Список самых труднопереводимых слов, составленный британским изданием The Times, можно дополнять бесконечно. Практически в каждом языке при детальном изучении обнаруживаются слова, которые сложно перевести на другие языки из-за отсутствия точных эквивалентов в языке, на который осуществляется перевод. В языковом блоге "Beyond words" американского бюро переводов ALTA приведены еще несколько труднопереводимых терминов, которые будут рассмотрены далее.


История пива

Пиво бывает разное: этот глоссарий поможет вам разобраться в том, что вы пьете.


Немецким лингвистам покорился перевод арабских надписей 2-тысячелетней давности

Лингвистам Йенского университета удалось расшифровать и выполнить перевод арабских надписей 2-тысячелетней давности, выполненных на пальмовых палочках в форме сигары. Надписи представили впервые возможность ученым познакомиться с письменными источниками доисламского периода арабской истории.


Пользователи чаще всего переводят с помощью электронных переводчиков личную переписку, бизнес-корреспонденцию и описания товаров

Интернет-пользователи чаще всего переводят с помощью электронных переводчиков свою переписку с друзьями за границей, бизнес-корреспонденцию, которую они ведут с иностранными партнерами, и описания товаров, которые планируют купить в онлайн. Об этом свидетельствуют данные, представленные сервисом онлайн-перевода Translate.Ru.


Александр Богдановский: Единица перевода намного крупнее, чем слово: это фраза, абзац или даже целая книга

Переводчик художественной литературы с португальского, испанского, английского языков на русский язык Александр Богдановский, считает неправильным переводить тексты по одному слову или даже по фразе. "Единица перевода намного крупнее, чем слово: это фраза, абзац или даже целая книга," - рассказывает он в интервью Афиша.ру.


Китайский язык не сможет занять место английского в бизнес-языке

В современном бизнес-языке англицизмы изобилуют, что свидетельствует об экономическом могуществе США. Несмотря на то что Китай экономически становится все сильнее, ожидать в бизнес-языке появления китайских слов и выражений пока не стоит. Так считает лингвист, специалист в области философии языка и языковой политики из университета Jacobs University в Бремене (Германия) Юрген Трабант (Jürgen Trabant), о чем он рассказал в интервью BFM.ru.




Прислать свою статью Наиболее читаемые Архив
метки: глоссарий, слово, фраза, язык, определение языка, определитель языка, автоматический определитель языка, текст, проект, Guesser, маркер





شركة ترجمة Бюро за преводи Бюро перакладаў 翻译社 Překladatelská kancelář Übersetzugsbüro Oversættelse bureau Translation Agency, Moscow Agencia de traducciones Käännöstoimisto Бюро переводов Фларус, Москва Agence de traduction მთარგმნელობითი ბიურო Γραφείο μεταφράσεων अनुवाद एजेंसी Prevodilacki biro Fordítóiroda Penerjemahan Biro Agenzia di Traduzioni 翻訳代理店 번역 회사 Аударма бюросы Орчуулгын товчоо Biuro tłumaczeń Agência de tradução Birou de traduceri Prekladateľská agentúra Tercüme Bürosu Бюро перекладів Văn phòng phiên dịch
Последний наш перевод:
"Разработка бренд-планов / Brand plans development", Общая тема, Переводчик №844

метки перевода: анализ, бренд, менеджер, разработка, команда, затраты, отслеживание.

Переводы в работе: 37
Загрузка бюро: 43%

Поиск по сайту:



Анализ машинного перевода и сравнение онлайн-переводчиков - новая жизнь старого проекта.


Глоссарий латинизмов (слова, сокращения) в английском языке


Подписка на рассылку
избранных новостей
(~1 раз в месяц)

e-mail:



Адаптация перевода на испанский язык



Accounting, Audit & Finance Glossary
Accounting, Audit & Finance Glossary



"Музыкальная" викторина







Компания

О бюро переводов
Письменный перевод
Локализация сайтов
Редактирование
Вычитка носителем языка
Примеры переводов
Вакансии
Контакты



Бюро переводов Фларус
© 2001-2019

Проекты

Работа для переводчиков
Новости переводов
Поздравления с переводом
Разговорник
Глоссарии и словари
Шаблоны переводов
Выставки в Москве

Контакты

Россия, Москва,
ул. Большая Молчановка, 34 стр.2, оф. 25
схема проезда

Телефон:
+7 495 504-71-35

Заказ: info@flarus.ru



Рейтинг@Mail.ru