Научная статья: CONTROLLING IMPRESSION: MAKING RUGPT3 GENERATE SENTIMENT-DRIVEN MOVIE REVIEWS (2022) (читать, скачать)

Статья Литература Выпуск Статистика Издательство

Читать онлайн

In this research paper, I investigate the controlled text generation capabilities of ruGPT3Large through fine-tuning, specifically focusing on generating movie reviews based on a designated sentiment attribute. Controlled text generation is an active area of inquiry within the domain of Natural Language Processing, particularly for the Russian language. This study exemplifies a simple approach to controllable text generation by training ruGPT3 on a textual dataset containing sentiment-marked prompts, enabling the model to recognize patterns and generate analogous texts. The research provides a comprehensive analysis of the limitations, shortcomings and merits of fine-tuning a large language model using prompts embedded in a dataset. The generated texts exhibit coherence, logical structure, abundant coreferential links, and narratives and vocabularies characteristic of film reviews. Nevertheless, ruGPT3-generated reviews exhibit certain linguistic errors. I classify the most prevalent errors, such as named entity confusion, grammatical gender inconsistencies and sentiment fluctuations. Given that the primary objective is to evaluate the efficacy of basic fine-tuning with respect to the specified attribute, both automatic sentiment analysis and human evaluation are employed for output assessment. In comparing the outputs of the fine-tuned model and the baseline ruGPT3Large, I observe that positive sentiment generation is the most successful, while neutral and negative sentiments are produced by the models less accurately.

Ключевые фразы: rugpt3, fine-tuning, controlling text generation, sentiment, prompt

Автор (ы): Марголина Анастасия Валерьевна

Журнал: JOURNAL OF APPLIED LINGUISTICS AND LEXICOGRAPHY

Идентификаторы и классификаторы

УДК: 81. Лингвистика. Языкознание. Языки
Префикс DOI: 10.33910/2687-0215-2022-4-1-15-25
eLIBRARY ID: 54733034

Для цитирования:

МАРГОЛИНА А. В. CONTROLLING IMPRESSION: MAKING RUGPT3 GENERATE SENTIMENT-DRIVEN MOVIE REVIEWS // JOURNAL OF APPLIED LINGUISTICS AND LEXICOGRAPHY. 2022. Т. 4 № 1

Текстовый фрагмент статьи

Список литературы

Hugging Face. (2022) [Online]. Available at: https://huggingface.co/docs/transformers/main_classes/text_generation#transformers.GenerationMixin.generate.early_stopping (accessed 23.03.2022). (In English).
ruPrompts library. (2022) [Online]. Available at: https://github.com/ai-forever/ru-prompts (accessed 23.03.2022). (In English).
Selenium with Python. (2022) [Online]. Available at: https://selenium-python.readthedocs.io/(accessed 20.03.2022). (In English).
Brown, T. B., Mann, B., Ryder, N. et al. (2020) Language models are few-shot learners. [Online]. Available at: https://arxiv.org/pdf/2005.14165.pdf (accessed 29.03.2022). (In English).
Dathathri, S., Madotto, A., Lan, J. et al. (2020) Plug and play language models: A simple approach to controlled text generation. ICLR 2020. [Online]. Available at: https://arxiv.org/pdf/1912.02164.pdf (accessed 29.03.2022). (In English).
Holtzman, A., Buys, J., Du, L. et al. (2020) The curious case of neural text degeneration. Conference paper. ICLR 2020. [Online]. Available at: https://arxiv.org/pdf/1904.09751.pdf (accessed 29.03.2022). (In English).
Keskar, N. S., McCann, B., Varshney L. R. et al. (2019) CTRL: A conditional transformer language model for controllable generation. arXiv. [Online]. Available at: 10.48550/arXiv.1909.05858 (accessed 29.03.2022). (In English). DOI: 10.48550/arXiv.1909.05858(accessed29.03.2022)
Li, C., Zhang, M., He, Y. (2022) The stability-efficiency dilemma: Investigating sequence length warmup for training GPT Models. In: NeurIPS’2022: 36th Conference on Neural Information Processing Systems. [Online]. Available at: https://arxiv.org/pdf/2108.06084.pdf (accessed 29.03.2022). (In English).
Nikolich, A., Puchkova, A. (2021) Fine-tuning GPT-3 for Russian Text Summarization. [Online]. Available at: https://arxiv.org/pdf/2108.03502.pdf (accessed 29.05.2022). (In English).

Radford, A., Wu, J., Child, R. et al. (2019) Language models are unsupervised multitask learners. [Online]. Available at: https://d4mucfpksywv.cloudfront.net/better-language-models/language_models_are_unsuper vised_multitask_learners.pdf (accessed 29.03.2022). (In English).

Totmina, E. (2022) Detoxification of Russian texts based on combination of controlled generation using pretrained ruGPT3 and the Delete method. In: Computational Linguistics and Intellectual Technologies: Proceedings of the International Conference "Dialogue 2022". Vol. 21. Moscow: Russian State University for the Humanities Publ., pp. 1167-1174. (In English).  DOI: 10.28995/2075-7182-2022-21-1158-1165

Vaswani, A., Shazeer, N., Parmar, N. et al. (2017) Attention is all you need. In: U. von Luxburg, I. Guyon (eds.). NIPS'17: Proceedings of the 31st International Conference on Neural Information Processing Systems. New York: Curran Associates Inc. Publ. [Online]. Available at: arXiv:1706.03762 (accessed 29.03.2022). (In English).

Zhang, H., Song, H., Li, S. et al. (2022) A survey of controllable text generation using transformer-based pre-trained language models. Association for Computing Machinery, vol. 37, no. 4, article 111. (In English).  DOI: 10.48550/arXiv.2201.05337

Выпуск

Т. 4 № 1 (2022)

Кол-во страниц: 67 страниц

Другие статьи выпуска

DIVERSIFYING THE USE OF RUSSIAN AS A WORLD LANGUAGE (2022)

Авторы: Протасова Екатерина Юрьевна, Еленевская Мария Николаевна

Russian is a language widely spoken worldwide. While it is one of the official languages of the United Nations, it is still predominantly spoken in Russia and the countries of the former Soviet Union, although about 30 million speakers abroad have a near-native proficiency in Russian, and about 70 million speak it as a foreign language. However, there are efforts to diversify the use of Russian as a world language and promote its use in other regions and contexts. Russian is a pluricentric language, meaning that it has multiple centers of use and standardisation. In addition to Russia, where it is the official language, Russian is also widely spoken in several other countries, including Belarus, Kazakhstan, and Kyrgyzstan. As a result, there is a great deal of linguistic diversity within the Russian-speaking world, which creates a stronger potential to increase linguistic diversity even further and promote the use of a wider range of linguistic varieties and dialects. By recognising the different varieties of Russian and promoting their use in different contexts, it may be possible to improve communication between Russian speakers from different regions and countries. By maintaining the use of Russian in different cultural contexts, it may be possible to facilitate greater cultural exchange and understanding between different parts of the world. Russian as a language of commerce and trade facilitates greater economic cooperation between different countries and regions.

Сохранить в закладках

О ТАК НАЗЫВАЕМЫХ НОВЫХ ПРАВИЛАХ ОРФОГРАФИИ (2022)

Авторы: Друговейко-Должанская Светлана Викторовна

Статья содержит анализ принципов, на которых базируется современная русская орфография, и отдельных правил, основанных на том или ином орфографическом принципе. Рассматриваются этапы корректировки свода правил русской орфографии (1956 г., 2006 г., 1999 г., 2006 г., 2021 г.) и анализируется структура различных орфографических сводов. Приводятся критические замечания к своду, созданному группой авторов в 2021 г.

Сохранить в закладках

ДЕТСКАЯ РЕЧЕВАЯ АВТОКОРРЕКЦИЯ В ТЕЛЕВИЗИОННОМ ТОК-ШОУ (2022)

Авторы: Крутто Венеса

В ходе онтогенеза дети учатся не только формулировать высказывания, но и самостоятельно исправлять свою речь, как это обычно делают взрослые во время разговора. Это помогает детям с течением времени стать более уверенными в себе и эффективными коммуникаторами. В статье представлены результаты изучения того, как дети самостоятельно корректируют свою речь в ходе телевизионного ток-шоу «Лучше всех!» Первого канала российского телевидения. Спонтанная речь в такой ситуации предполагает достаточно быстрый обмен репликами исходя из контекста и цели общения. Частью программы является интервью ведущего с ребенком, которое позволяет охарактеризовать личность героя передачи, создать связь с аудиторией и вызвать больший интерес к способностям ребенка. В исследовании, построенном на основе конверсационного анализа, рассматриваются различные виды самокоррекции (замены, повторы, добавления, обрывы), их функции, контекст и роль в диалоге. Полученные результаты свидетельствуют о том, что самоисправления являются как следствием трудностей при подборе лексики, так и отражением процесса поиска ребенком наиболее эффективного способа выражения мыслей. Кроме того, исследование показало, что различные проявления самокоррекции свойственны детям начиная с двух лет и сохраняются в дошкольном и младшем школьном возрасте.

Сохранить в закладках

ПРИЕМЫ И СПОСОБЫ ЛЕКСИКОГРАФИРОВАНИЯ УСТАРЕВШЕЙ ЛЕКСИКИ В "СЛОВАРЕ РУССКОГО ЯЗЫКА XXI В." КАК ПОКАЗ СВЯЗИ РАЗНЫХ ЭПОХ (2022)

Авторы: Генералова Елена Владимировна

В статье рассматривается словарное представление пласта устаревшей лексики, известной в современном русском языке, в «Словаре русского языка XXI в.», на основе чего делаются выводы о месте лексико-семантических единиц прошлого в языке другой эпохи, семантических и стилистических процессах, характерных для функционирования устаревшей лексики в современном языке. Реализуется методика изучения лексики по лексикографическим данным, при которой толковый словарь современного языка, создаваемый по принципам антропоцентрической лексикографии, выступает и как итог описания национального языка, и как источник его изучения. Была подтверждена принципиальная неоднородность пласта устаревшей лексики в современном языке, по разным принципам строится лексикографическое описание историзмов и архаизмов разного типа. Обязательным элементом толкования историзмов является указание на время бытования обозначаемой ими реалии, толкование содержит элементы энциклопедизма. Ряд историзмов в современном употреблении развивает переносную семантику. Эти значения по возможности фиксируются Словарем, хотя естественно запаздывание лексикографической фиксации. Активным процессом современного этапа развития языка является актуализация историзмов, таким образом, в языке происходит регулярное перераспределение лексики между активным и пассивным запасом. В антропоцентрически ориентированном словаре актуализированные значения историзмов помещаются выше генетически первичных, но устаревших в современном языке. В словарных статьях, описывающих архаизмы, специальные пометы и подтолкования демонстрируют роль архаизмов как мощного стилистического ресурса. Отмечается использование архаизмов в стилизованной речи, в функции поэтизмов, с особой эмоционально-экспрессивной окраской, очень подробно описываются семантические нюансы и стилистические особенности таких употреблений. Подробная лексикографическая интерпретация устаревшей лексики в Словаре дает читателям словарей важную информацию о грамотном использовании этого пласта лексики и показывает преемственность языка разных эпох, являющуюся важнейшим свойством живой языковой системы.

Сохранить в закладках

Статистика статьи

Статистика просмотров за 2025 год.

Издательство

Издательство: РГПУ им. А. И. Герцена
Регион: Россия, Санкт-Петербург
Почтовый адрес: 191186, Санкт-Петербург, набережная реки Мойки 48
Юр. адрес: 191186, Санкт-Петербург, набережная реки Мойки 48
ФИО: Тарасов Сергей Валентинович (ректор)
E-mail адрес: mail@herzen.spb.ru
Контактный телефон: +7 (812) 3124477
Сайт: https://herzen.spb.ru/

Все права на тексты и товарные знаки принадлежат их законным владельцам. Подробнее...

Сайт https://scinetwork.ru (далее – сайт) работает по принципу агрегатора – собирает и структурирует информацию из публичных источников в сети Интернет, то есть передает полнотекстовую информацию о товарных знаках в том виде, в котором она содержится в открытом доступе.

Сайт и администрация сайта не используют отображаемые на сайте товарные знаки в коммерческих и рекламных целях, не декларируют своего участия в процессе их государственной регистрации, не заявляют о своих исключительных правах на товарные знаки, а также не гарантируют точность, полноту и достоверность информации.

Все права на товарные знаки принадлежат их законным владельцам!

Сайт носит исключительно информационный характер, и предоставляемые им сведения являются открытыми публичными данными.

Администрация сайта не несет ответственность за какие бы то ни было убытки, возникающие в результате доступа и использования сайта.

Спасибо, понятно.

Наведите камеру на QR-код, чтобы открыть моб. версию страницы.

Автор

Марголина Анастасия

Статья: CONTROLLING IMPRESSION: MAKING RUGPT3 GENERATE SENTIMENT-DRIVEN MOVIE REVIEWS (2022)

Идентификаторы и классификаторы

Список литературы

Выпуск

Другие статьи выпуска

Статистика статьи

Издательство