
Наиболее частотными словами русского языка являются союз "а", предлог "в" и частица "не". Об этом рассказали на мультимедийной лекции "Русский язык и новые технологии: корпуса и корпусная лингвистика" представители Национального исследовательского университета "Высшая школа экономики" (НИУ ВШЭ).

На лекции лингвисты рассказали о информационно-справочной системе, основанной на собраниях реальных текстов в электронном виде, которая называется Национальный корпус русского языка. По словам профессора
НИУ ВШЭ Екатерины Рахилиной, технический прогресс позволил лингвистам работать с огромными объемами текстов, отслеживая изменения, которые происходят в языке. Например, уточняет она, можно проследить, как некогда новое для русского языка слово "кофе" искало свой род.
Эксперты рассказали, что Национальный корпус русского языка состоит на 20% из художественных текстов, а остальное в нем - газетные тексты, записи устных разговоров, тексты смс и другое. Сейчас в него входит 230 млн. словоупотреблений, включая газетный корпус — 170 млн. слов, устный корпус – 10 млн. слов,
поэтический корпус – 10 млн. слов.
Лингвисты составили на базе корпуса частотный словарь, который, по их мнению, позволяет решить многие грамматические и стилистические проблемы. Так, например, в слове "баннер", говорят лингвисты, наиболее частотный вариант написания с удвоенной "нн", а вот слово "блоггер/блогер" допускает двоякое написание, так как
частота употребления обоих вариантов примерно одинаковая.