До сих пор у лингвистов не было инструмента, при помощи которого можно было бы проанализировать значительное количество текстов. Авторы нового исследования использовали книги, уже переведенные в цифровой формат — всего около 15 миллионов.
Ученые выбрали из них треть текстов (5,2 миллиона книг на английском, французском, испанском, немецком, китайском и русском языках) и составили базу всех использованных в них слов. Их оказалось около 500 миллиардов.
Анализ полученных данных привел авторов работы к ряду заключений. В частности, они установили, что за последние сто лет число часто используемых слов возросло вдвое — с приблизительно 544 тысяч в 1900 году до миллиона в 2000 году, причем 52 процента новых слов стало активно употребляться после
Также специалисты изучили влияние цензуры на использовании тех или иных слов. Выяснилось, что после 1989 года словосочетание «площадь Тяньаньмень» практически перестало встречаться в литературе, изданной в Китае. То же самое произошло с именем Лев Троцкий в СССР в
Авторы и их коллеги полагают, что новый инструмент позволит ученым исследовать слова и лингвистические тенденции, используя те же подходы и методы, что и специалисты по естественным наукам, передает Lenta.Ru.