Цель исследования - описать типовую процедуру преобразования скрипта телесериала в лингвистический корпус, совместимый с программным комплексом «Генератор сбалансированного лингвистического корпуса и корпусный менеджер». Применяются методы сравнительного и структурного анализа, описания, профессионально ориентированного программирования, а также базовые методы корпусного подхода. В качестве лингвистического материала выступает скрипт оригинального телесериала «Звездный путь». В результате получен сбалансированный лингвистический корпус всех трех сезонов, содержащий помимо стандартных данных сведения о номере сезона и серии, говорящем и локации, в которой происходит действие.
Цель исследования - разработать базовую технологию идентификации средств категории отрицания в рамках работы программного комплекса «Генератор сбалансированного лингвистического корпуса и корпусный менеджер». Применяются методы анализа, тестирования, моделирования, профессионально ориентированного программирования и эксперимента. В качестве лингвистического материала выступает корпус актуальных новостных текстов CNN объемом 1 024 583 токена. В результате исследования уточнены возможности текущей версии программного комплекса, а также написано расширение, позволяющее находить лексические единицы, находящиеся в прямом подчинении от заданной леммы.