Следует отметить, пока определитель текста работает в тестовом режиме, точность его работы сильно зависит от языка, особенностей грамматики и уникальности слов загруженного текста.
Мы постоянно пополняем базу данных терминов нашего глоссария, который одновременно является корпусом слов для автоматического определителя языка и надеемся, что качество распознавания языка текста будет со временем улучшаться.
Т.к. мы не обладаем серьезными ресурсами для создания корпуса текста по всем языкам, думаю, данный алгоритм определения языка текста пока сложно использовать для непосредственной его задачи, но не исключено, что он будет полезен в лингвистических исследованиях и других наших проектах, таких как "Работа для переводчиков" и "Глоссарии".
Кроме того, в лингвистический комплекс бюро переводов "Flarus" входит:
- Алгоритм вычисления корелляции корпусов двух текстов (степень похожести текстов между собой), который используется на нашем сайте-эксперименте по сравнению онлайн-переводчиков.
- База данных меток переводов, которая служит для определения тематики текста и поиска выполненных переводов в архиве бюро.
- Сборник шаблонов юридических документов на разных языках с переводом на русский язык.
- Классификация профилей переводов (отраслей, сфер деятельности) клиентов бюро и пересечения профилей с тематическими выборками текстов.