На лекции лингвисты рассказали о информационно-справочной системе, основанной на собраниях реальных текстов в электронном виде, которая называется Национальный корпус русского языка. По словам профессора НИУ ВШЭ Екатерины Рахилиной, технический прогресс позволил лингвистам работать с огромными объемами текстов, отслеживая изменения, которые происходят в языке. Например, уточняет она, можно проследить, как некогда новое для русского языка слово "кофе" искало свой род.
Эксперты рассказали, что Национальный корпус русского языка состоит на 20% из художественных текстов, а остальное в нем - газетные тексты, записи устных разговоров, тексты смс и другое. Сейчас в него входит 230 млн. словоупотреблений, включая газетный корпус — 170 млн. слов, устный корпус – 10 млн. слов, поэтический корпус – 10 млн. слов.
Лингвисты составили на базе корпуса частотный словарь, который, по их мнению, позволяет решить многие грамматические и стилистические проблемы. Так, например, в слове "баннер", говорят лингвисты, наиболее частотный вариант написания с удвоенной "нн", а вот слово "блоггер/блогер" допускает двоякое написание, так как частота употребления обоих вариантов примерно одинаковая.