Описывается создание модели, которая решает задачу распознавания юмористических и неюмористических текстов. Была обучена гибридная модель с предобученной нейронной сетью BERT в качестве эмбеддингового слоя и Bi-LSTM для классификации последовательностей. В качестве основного материала использовался обучающий и тестовый корпусы из 76 тысяч текстов, шуток и не-шуток. Особое внимание уделено идентичности лексики; данный критерий необходим, чтобы модель не распознавала разные категории текстов по лексике. В работе также описывается применение гибридной нейросети в серии экспериментов по лингвистическим преобразованиям юмористических и неюмористических текстов. Цель данных экспериментов заключается в поиске ключевых частей и слов, без которых шутка перестает быть юмористической. В рамках некоторых междисциплинарных теорий юмора подобные слова и выражения называют триггерами [Attardo S., 1994]. По результатам количественного и качественного анализа можно сделать вывод, что 78 из 100 шуток в валидационном датасете хотя бы один раз меняют метку класса на противоположную при использовании системы правил преобразований. При этом в 16 из оставшихся 22 шуток содержится явная или неявная экстралингвистическая информация. Т-критерий распределения Стьюдента, измеренный на вероятностных оценках исходного и измененного текста для каждого типа преобразования, позволил выявить преобразования, при которых чаще всего шутки из валидационного датасета перестают быть юмористическими: удаление панчлайна, удаление от 1 до 3 токенов с начала текста, удаление от 1 до 3 токенов с середины текста, удаление всех существительных.
Сайт https://scinetwork.ru (далее – сайт) работает по принципу агрегатора – собирает и структурирует информацию из публичных источников в сети Интернет, то есть передает полнотекстовую информацию о товарных знаках в том виде, в котором она содержится в открытом доступе.
Сайт и администрация сайта не используют отображаемые на сайте товарные знаки в коммерческих и рекламных целях, не декларируют своего участия в процессе их государственной регистрации, не заявляют о своих исключительных правах на товарные знаки, а также не гарантируют точность, полноту и достоверность информации.
Все права на товарные знаки принадлежат их законным владельцам!
Сайт носит исключительно информационный характер, и предоставляемые им сведения являются открытыми публичными данными.
Администрация сайта не несет ответственность за какие бы то ни было убытки, возникающие в результате доступа и использования сайта.
Спасибо, понятно.