Датасет ойконимов: аналитики Яндекса изучили названия российских населённых пунктов | статьи на planet-market

Аналитики Яндекс.Карт вместе с лингвистами провели исследование российских ойконимов: нашли самые распространённые и самые редкие названия, самые длинные и короткие, характерные для разных регионов и просто необычные.

Вместе с исследованием публикуется и датасет, содержащий информацию о названиях населённых пунктов, их местонахождении, численности населения и прежних названиях. Эти данные лингвисты смогут использовать в научных работах.

Рассказывает Борис Иомдин, заведующий сектором Института русского языка им. В. В. Виноградова:

«Ойконимы — это большая часть языка и важный материал для лингвистических исследований. Информация о том, какие названия встречаются на карте России, позволяет судить об историческом расселении разных этнических групп, о том, от каких слов образуются названия городов и деревень и какие исторические события и имена отражены в этих названиях.

Ойконимы также интересны с точки зрения фонетики, грамматики и семантики. Например, какие-то названия звучат понятно, но большинство людей понимает их неправильно: скажем, в Зебревице не живут зебры, а Старая Тумба не связана с мебелью.

Яндекс опубликовал данные о российских ойконимах, чтобы любой желающий мог использовать их в своих исследованиях. Эти данные могут пригодиться лингвистам, историкам, антропологам, социологам и всем, кому интересен язык, места, где мы живем, и то, как мы их называем.

Основные факты из исследования:

    На Яндекс.Картах отмечено около 160 тысяч различных населённых пунктов — не считая СНТ, урочищ и некоторых других типов. В основном это деревни (57%), сёла (19%) и сельские посёлки (17%). Города и посёлки городского типа составляют меньше 1,5% от общего числа, хотя в них проживает три четверти всего населения России.
    Самые распространённые названия населённых пунктов — Александровка (их в России 333 штуки), Ивановка (280) и Михайловка (272).
    Примерно 65 тысяч названий встречаются на карте России только один раз, например Шуточкино, Майя, Опухлики, Пролей-Каша или Мутный Материк.
    Самое длинное название без пробелов — у села Кременчуг-Константиновское (26 букв). Без пробелов и дефисов — у села Верхненовокутлумбетьево (23), которое чуть опередило соседнее Нижненовокутлумбетьево (22). Самых коротких названий — из двух букв — двадцать семь. Некоторые из них встречаются несколько раз. Самые распространённые — Ям и Яр, их в России по одиннадцать штук.
    В России есть населённые пункты на любую букву алфавита, кроме ь и ъ. Больше всего — на к, с и п. Меньше всего — на й, всего семь (пять из них принадлежат населенным пунктам в Марий Эл и начинаются на йошкар, что на марийском значит «красный»).
    Большая часть городов и почти половина посёлков называются словами мужского рода. Половина деревень — словами среднего рода. Названия женского рода чаще всего встречаются у сёл (а не деревень, как можно было бы ожидать).
    Самые частотные слова в названиях — это прилагательные, служащие для различения одноимённых населённых пунктов, — малый, большой, новый, старый (новых населённых пунктов в два раза больше, чем старых) и так далее. Самые популярные существительные — горка, гора, поляна.
    В ходе исследования аналитики Яндекс.Карт провели опрос: показывали респондентам случайные названия российских населённых пунктов и спрашивали, с чем они могут быть связаны. Судя по полученным ответам, чаще всего названия отражают особенности места, в котором находится населённый пункт (Лютые Болоты, Глубокие Лужи, Бугорки). Вторую по величине группу составляют названия, образованные от имён (Игоревка, Глебовка, Ерофей Павлович), третью — от названий животных (Комар, Зайчик, Большое Свинорье).

Ойконимы России. Иллюстрации: Яндекс.

В исследовании также можно посмотреть на пары названий, которые аналитики Карт предлагают представить как крайние точки маршрута. Например, Красная Беднота — Разумный Труд, Редкий Куст — Долгие Бороды, Глубокие Лужи — Победим, Обыденки — Весёлая Жизнь, Понуровка — Утешение.

Источник: 22century.ru

свежее на сайте