ISSN 2223-9537 · EISSN 2313-1039
Язык: ru

Статья: ИЗВЛЕЧЕНИЕ ИНФОРМАЦИИ ИЗ ТЕКСТОВ НА ОСНОВЕ ОНТОЛОГИИ И БОЛЬШИХ ЯЗЫКОВЫХ МОДЕЛЕЙ (2025)

Читать онлайн

Рассматривается извлечение информации из текстов на основе онтологии предметной области и нейросетевых методов анализа текста с привлечением больших языковых моделей. Обсуждается роль эксперта при разработке и сопровождении систем на примере задачи извлечения информации из аналитических статей и при построении онтологий по компьютерной лингвистике, описывающих основные понятия, интересующие пользователя/заказчика системы. Создание онтологии сопровождается созданием словаря - терминологического ядра онтологии с дальнейшей разработкой методов извлечения новых терминов данной предметной области. Данная задача рассматривается как задача извлечения именованных сущностей, для решения которой стандартом является обучение нейросетевой модели на представительном наборе данных. Этот подход сравнивается с подходом на основе больших языковых моделей, для реализации которого разработаны лексико-синтаксические шаблоны, шаблоны инструкций для проверки гипотез относительно новых терминов-словосочетаний, инструкции для верификации результатов. Разработанные инструкции для решения задачи извлечения отношений включают вопросы оценки компетенций на естественном языке, генерируемые автоматически для каждого отношения онтологии. Новизна предлагаемого подхода заключается в интеграции онтологических, лингвистических и нейросетевых подходов для извлечения информации из текстов. Показана возможность решать задачи анализа текста и извлечения информации путём выстраивания цепочки больших языковых моделей, инструкции для которых динамически формируются на основе результатов предыдущих этапов анализа. В эксперименте достигнуты следующие оценки F1-меры: для извлечения и классификации терминов F1=0.8, для извлечения отношений F1=0.87.

Ключевые фразы: извлечение информации, онтология предметной области, большие языковые модели, НЕЙРОСЕТЕВЫЕ МОДЕЛИ, разработка инструкций
Автор (ы): Сидорова Елена Анатольевна
Соавтор (ы): Иванов Александр Иванович, Овчинникова Кристина Алексеевна
Журнал: ОНТОЛОГИЯ ПРОЕКТИРОВАНИЯ

Идентификаторы и классификаторы

УДК
001.92. Распространение фактически установленных знаний. Популяризация науки
Префикс DOI
10.18287/2223-9537-2025-15-1-114-129
eLIBRARY ID
80257256
Для цитирования:
СИДОРОВА Е. А., ИВАНОВ А. И., ОВЧИННИКОВА К. А. ИЗВЛЕЧЕНИЕ ИНФОРМАЦИИ ИЗ ТЕКСТОВ НА ОСНОВЕ ОНТОЛОГИИ И БОЛЬШИХ ЯЗЫКОВЫХ МОДЕЛЕЙ // ОНТОЛОГИЯ ПРОЕКТИРОВАНИЯ. 2025. Т. 15 № 1
Текстовый фрагмент статьи