Лингвистическая алгебра: ученые представили семантические связи между словами в виде векторов

Простейшим примером математического выражения семантических связей является следующее: "король" — "мужчина" + "женщина" = "королева". Другой подобный пример: "Париж" - "Франция" + "Польша" = "Варшава". Разность векторов "Париж" и "Франция" выводит на поверхность идею о столице, а столицей Польши является Варшава. Пока все логично, не так ли?

Группа ученых, возглавляемая профессором Тимоти Болдуином из Университета Мельбурна (Австралия), попыталась выяснить пределы применимости такого подхода к семантическим связям между словами. Для того, чтобы это понять они сравнили с помощью машинного анализа векторы разных слов, представляющих собой объект и его часть (например, "самолет" и "кабина пилота") или объект и связанное с ним действие (например, "охотиться" и "олень"). Оказалось, что векторные связи между такими словами довольно крепки. Однако при попадании в сравнение случайных слов, векторные результаты значительно ухудшались. Так, например, программа связала между собой пару "took" и "turn" по признаку "прошедшее время", хотя на самом деле эти слова между собой никак не связаны.

Ученые отмечают, что принцип анализа слов по контекстным векторам действительно применим для семантического анализа. Однако он плохо подходит для анализа "сырых" данных, в которых присутствует много шума, так как классификатор начинает обнаруживать связи там, где их нет.

Лингвистическая алгебра: ученые представили семантические связи между словами в виде векторов

Локализация и переводы для африканского рынка 7167

"Музыкальная" викторина

Опубликован глоссарий компьютерных терминов на сайте бюро переводов 1760

Лингвисты обсудили особенности русских фразеологизмов 1915

Язык как средство защиты 1971

Язык шимпанзе бонобо подобен человеческому - ученые 1909

Авиаторы в Эстонии предлагают использовать в воздушном пространстве только английский язык 2066

Почему переводчик – это современный кузнец? 4224

Помощь переводчика в поисковой SEO-оптимизации сайта 2639

Молодежи рассказали о сталинских репрессиях на "понятном языке" 2828

Компания

Проекты

Контакты