Компьютерная лингвистика - область исследования, неразрывно связанная с автоматической обработкой текстов на естественном языке. В последние годы она стала особенно актуальной благодаря развитию новых технологий, таких как модели генеративных предобученных трансформеров (GPT). Эти модели способны обрабатывать долгосрочные зависимости в тексте, что делает их перспективными для поиска коллокаций - семантически связанных словосочетаний. Цель исследования заключается в сравнении эффективности двух методов поиска коллокаций: статистической обработки естественного языка (Statistical NLP) и GPT-4 Turbo. Для этого была разработана программа, использующая меру статистической зависимости PMI, и проведен сравнительный анализ с результатами GPT-модели. Материалом исследования послужила статья 5 Европейской конвенции по правам человека. Оценка особенностей и возможностей применения методов автоматизации поиска коллокаций в тексте в виде статистической обработки текстов естественного языка и модели генеративного предобученного трансформера (GPT) в контексте автоматизации лингвистических исследований позволяет лучше понять разнообразие подходов и сгенерировать наиболее подходящий метод автоматизации поиска коллокаций в тексте для своих собственных исследований. В ходе исследования описываются отличия в подходе к анализу и пониманию текстов на естественном языке в случае выбора метода, использующего модель GPT, и метода статистической обработки текстов на естественном языке и проводится сопоставительный анализ полученных результатов. Оба подхода имеют свои преимущества и ограничения, и выбор между ними зависит от конкретных задач и ресурсов. В некоторых случаях комбинирование этих методов может привести к лучшим результатам в обработке текстов на естественном языке.
Сайт https://scinetwork.ru (далее – сайт) работает по принципу агрегатора – собирает и структурирует информацию из публичных источников в сети Интернет, то есть передает полнотекстовую информацию о товарных знаках в том виде, в котором она содержится в открытом доступе.
Сайт и администрация сайта не используют отображаемые на сайте товарные знаки в коммерческих и рекламных целях, не декларируют своего участия в процессе их государственной регистрации, не заявляют о своих исключительных правах на товарные знаки, а также не гарантируют точность, полноту и достоверность информации.
Все права на товарные знаки принадлежат их законным владельцам!
Сайт носит исключительно информационный характер, и предоставляемые им сведения являются открытыми публичными данными.
Администрация сайта не несет ответственность за какие бы то ни было убытки, возникающие в результате доступа и использования сайта.
Спасибо, понятно.