Работы автора

Исторический корпус средневековых славянских рукописей «Манускрипт» как исследовательский интернет-ресурс (количественно-статистические характеристики существительных брань и рать) (2024)

В статье рассматриваются вопросы использования текстовых данных исторического корпуса «Манускрипт», содержащего транскрипции средневековых славянских рукописей X–XV вв., в историко-лингвистических исследованиях. Демонстрируются возможности модулей корпусного менеджера для извлечения и визуализации лингвистических единиц, их первичного анализа. Особое внимание уделено получению количественных и статистических сведений о распределении и сочетаемости слов. Основная часть статьи посвящена новому модулю корпуса – дистрибутивному словарю, предназначенному для автоматического выявления слов, близких по своей семантике. При создании процедур словаря использован метод word2vec. Параметры настроек поиска (выбор подкорпуса, типа единицы анализа, количественной или статистической оценки совместной встречаемости и др.) и визуализации результата (количество аналогов, величина косинусного расстояния, список, граф) позволяют решать различные задачи, связанные с исследованием лексической семантики в средневековых славянских текстах. В качестве иллюстративного материала использованы количественно-статистические характеристики слов брань и рать.

Издание: Scriptorium slavicum
Выпуск: №1 (2024)
Автор(ы): Баранов Виктор Аркадьевич
Сохранить в закладках