Простейшим примером математического выражения семантических связей является следующее: "король" — "мужчина" + "женщина" = "королева". Другой подобный пример: "Париж" - "Франция" + "Польша" = "Варшава". Разность векторов "Париж" и "Франция" выводит на поверхность идею о столице, а столицей Польши является Варшава. Пока все логично, не так ли?
Группа ученых, возглавляемая профессором Тимоти Болдуином из Университета Мельбурна (Австралия), попыталась выяснить пределы применимости такого подхода к семантическим связям между словами. Для того, чтобы это понять они сравнили с помощью машинного анализа векторы разных слов, представляющих собой объект и его часть (например, "самолет" и "кабина пилота") или объект и связанное с ним действие (например, "охотиться" и "олень"). Оказалось, что векторные связи между такими словами довольно крепки. Однако при попадании в сравнение случайных слов, векторные результаты значительно ухудшались. Так, например, программа связала между собой пару "took" и "turn" по признаку "прошедшее время", хотя на самом деле эти слова между собой никак не связаны.
Ученые отмечают, что принцип анализа слов по контекстным векторам действительно применим для семантического анализа. Однако он плохо подходит для анализа "сырых" данных, в которых присутствует много шума, так как классификатор начинает обнаруживать связи там, где их нет.