Архив статей журнала
Russian is a language widely spoken worldwide. While it is one of the official languages of the United Nations, it is still predominantly spoken in Russia and the countries of the former Soviet Union, although about 30 million speakers abroad have a near-native proficiency in Russian, and about 70 million speak it as a foreign language. However, there are efforts to diversify the use of Russian as a world language and promote its use in other regions and contexts. Russian is a pluricentric language, meaning that it has multiple centers of use and standardisation. In addition to Russia, where it is the official language, Russian is also widely spoken in several other countries, including Belarus, Kazakhstan, and Kyrgyzstan. As a result, there is a great deal of linguistic diversity within the Russian-speaking world, which creates a stronger potential to increase linguistic diversity even further and promote the use of a wider range of linguistic varieties and dialects. By recognising the different varieties of Russian and promoting their use in different contexts, it may be possible to improve communication between Russian speakers from different regions and countries. By maintaining the use of Russian in different cultural contexts, it may be possible to facilitate greater cultural exchange and understanding between different parts of the world. Russian as a language of commerce and trade facilitates greater economic cooperation between different countries and regions.
Статья содержит анализ принципов, на которых базируется современная русская орфография, и отдельных правил, основанных на том или ином орфографическом принципе. Рассматриваются этапы корректировки свода правил русской орфографии (1956 г., 2006 г., 1999 г., 2006 г., 2021 г.) и анализируется структура различных орфографических сводов. Приводятся критические замечания к своду, созданному группой авторов в 2021 г.
В ходе онтогенеза дети учатся не только формулировать высказывания, но и самостоятельно исправлять свою речь, как это обычно делают взрослые во время разговора. Это помогает детям с течением времени стать более уверенными в себе и эффективными коммуникаторами. В статье представлены результаты изучения того, как дети самостоятельно корректируют свою речь в ходе телевизионного ток-шоу «Лучше всех!» Первого канала российского телевидения. Спонтанная речь в такой ситуации предполагает достаточно быстрый обмен репликами исходя из контекста и цели общения. Частью программы является интервью ведущего с ребенком, которое позволяет охарактеризовать личность героя передачи, создать связь с аудиторией и вызвать больший интерес к способностям ребенка. В исследовании, построенном на основе конверсационного анализа, рассматриваются различные виды самокоррекции (замены, повторы, добавления, обрывы), их функции, контекст и роль в диалоге. Полученные результаты свидетельствуют о том, что самоисправления являются как следствием трудностей при подборе лексики, так и отражением процесса поиска ребенком наиболее эффективного способа выражения мыслей. Кроме того, исследование показало, что различные проявления самокоррекции свойственны детям начиная с двух лет и сохраняются в дошкольном и младшем школьном возрасте.
In this research paper, I investigate the controlled text generation capabilities of ruGPT3Large through fine-tuning, specifically focusing on generating movie reviews based on a designated sentiment attribute. Controlled text generation is an active area of inquiry within the domain of Natural Language Processing, particularly for the Russian language. This study exemplifies a simple approach to controllable text generation by training ruGPT3 on a textual dataset containing sentiment-marked prompts, enabling the model to recognize patterns and generate analogous texts. The research provides a comprehensive analysis of the limitations, shortcomings and merits of fine-tuning a large language model using prompts embedded in a dataset. The generated texts exhibit coherence, logical structure, abundant coreferential links, and narratives and vocabularies characteristic of film reviews. Nevertheless, ruGPT3-generated reviews exhibit certain linguistic errors. I classify the most prevalent errors, such as named entity confusion, grammatical gender inconsistencies and sentiment fluctuations. Given that the primary objective is to evaluate the efficacy of basic fine-tuning with respect to the specified attribute, both automatic sentiment analysis and human evaluation are employed for output assessment. In comparing the outputs of the fine-tuned model and the baseline ruGPT3Large, I observe that positive sentiment generation is the most successful, while neutral and negative sentiments are produced by the models less accurately.
В статье рассматривается словарное представление пласта устаревшей лексики, известной в современном русском языке, в «Словаре русского языка XXI в.», на основе чего делаются выводы о месте лексико-семантических единиц прошлого в языке другой эпохи, семантических и стилистических процессах, характерных для функционирования устаревшей лексики в современном языке. Реализуется методика изучения лексики по лексикографическим данным, при которой толковый словарь современного языка, создаваемый по принципам антропоцентрической лексикографии, выступает и как итог описания национального языка, и как источник его изучения. Была подтверждена принципиальная неоднородность пласта устаревшей лексики в современном языке, по разным принципам строится лексикографическое описание историзмов и архаизмов разного типа. Обязательным элементом толкования историзмов является указание на время бытования обозначаемой ими реалии, толкование содержит элементы энциклопедизма. Ряд историзмов в современном употреблении развивает переносную семантику. Эти значения по возможности фиксируются Словарем, хотя естественно запаздывание лексикографической фиксации. Активным процессом современного этапа развития языка является актуализация историзмов, таким образом, в языке происходит регулярное перераспределение лексики между активным и пассивным запасом. В антропоцентрически ориентированном словаре актуализированные значения историзмов помещаются выше генетически первичных, но устаревших в современном языке. В словарных статьях, описывающих архаизмы, специальные пометы и подтолкования демонстрируют роль архаизмов как мощного стилистического ресурса. Отмечается использование архаизмов в стилизованной речи, в функции поэтизмов, с особой эмоционально-экспрессивной окраской, очень подробно описываются семантические нюансы и стилистические особенности таких употреблений. Подробная лексикографическая интерпретация устаревшей лексики в Словаре дает читателям словарей важную информацию о грамотном использовании этого пласта лексики и показывает преемственность языка разных эпох, являющуюся важнейшим свойством живой языковой системы.
In June 2022, the publishing house of Saint Petersburg State University published the monograph Communicative Adaptation in Dialogue: A phonetician’s point of view (Kachkovskaya 2022), the fruit of many years of work by a team of authors who are teachers, students and graduates of the Department of Phonetics and Methods of Teaching Foreign Languages. The book explores the manifestations of intra-speaker speech variability as a result of the adaptation of interlocutors to each other in the course of the process of communication. This is the first comprehensive study of the phonetic side of communicative adaptation based on Russian material that determines the relevance and innovative perspective of this work and its unconditional theoretical value. The subtitle of the publication (‘a phonetician’s point of view’) is of note and is able to arouse the interest of a prospective reader.
Современные средства компьютерной обработки текста позволили автоматизировать многие рутинные задачи лексикографов и терминологов. Помимо привычных программных средств, применяемых для вспомогательных задач прикладной лексикографии специалистами по составлению терминологических и других словарей, в решении таких задач может помочь язык программирования Python и его библиотеки, такие как NLTK (Natural Language Toolkit), pymorphy2, mystem и др. Python - один из самых распространенных и доступных в изучении языков программирования, который все шире применяется в прикладной лингвистике. Статья продолжает цикл публикаций, знакомящих практикующих лингвистов и лексикографов с Python и его возможностями для обработки текстов на естественном языке (natural language processing). Описываются техники, которые можно использовать для предварительной обработки текстов с целью последующего извлечения из них терминологии и составления терминологических словарей, в том числе для нужд письменного перевода. В настоящее время эта задача пересекается с использованием систем машинного перевода, в ряде которых реализована функция приоритетного использования пользовательского терминологического двуязычного словаря. Кроме того, некоторые из описанных приемов помогут извлечь информацию из больших корпусов текстов и проанализировать их содержание. В статье описывается порядок выполнения токенизации и лемматизации текста или корпуса текстов, приемы для выделения наиболее частотных лемм, рассматриваются разные подходы к поиску в тексте частотных словосочетаний методом нахождения n-грамм. Техники для автоматического нахождения потенциальных узкоспециальных терминов проиллюстрированы примерами из научно-технического текста. На материале художественного текста показаны методы анализа содержания, например, подсчет частотности определенных лемм в корпусе. Все приведенные примеры кода можно скопировать и запустить в облачной среде Google Colab без установки каких-либо программ на компьютер. Надеемся, что эти приемы облегчат повседневную работу лексикографов, а может быть, и побудят лингвистов к изучению языка Python.
Учебная направленность созданного в Санкт-Петербурге «Словаря редкой лексики по произведениям школьной программы» обеспечивается не только особенностями словника и характером семантизации слова в словарной статье, но и подготовленным методическим сопровождением, включающим систему заданий к словарным статьям и указаниями для учителя. Эта система опирается на словоцентрический подход в организации учебной работы и предполагает, во-первых, комментирование специально подобранных отрывков литературных произведений школьной программы в соответствии с лексикографическим описанием, а во-вторых, разноаспектный, а именно семантический, словообразовательный, грамматический, стилистический, анализ лексического материала, содержащегося в словаре. В числе приоритетных направлений предлагаемой учебной работы - сопоставительный анализ языковых явлений, формирование навыков обращения к авторитетным источникам информации о языке, в первую очередь к словарям разных типов и воспитание филологической культуры, предполагающей осознание взаимодействия узуса и нормы, исторической изменчивости как основополагающей характеристики языка, специфики эстетически значимого словоупотребления. Большое внимание уделяется также возможностям осуществления на предложенном материале исследовательской и проектной деятельности учащихся, организации публичного обсуждения теоретически значимых или практически актуальных языковых вопросов. Составленные задания предоставляют учителю возможность самостоятельно регулировать объем нагрузки на ученика и могут служить средством индивидуализации обучения. В статье приведены примеры заданий различных типов и методических комментариев к ним, адресованных учителю.
В связи с укреплением статуса английского языка как языка международного общения все более распространенным становится его изучение детьми раннего дошкольного возраста в условиях искусственно созданной языковой среды, которое до сих пор остается малоизученным в билингвальных регионах РФ. В данном небольшом социолингвистическом исследовании представлены результаты анализа речевых особенностей детей дошкольного возраста, проживающих на территории Республики Татарстан и осваивающих родные русский, татарский языки и неродной английский язык в условиях семейного взаимодействия. В данной работе проанализированы данные выборочного опроса, в котором приняли участие 28 казанских семей, воспитывающих детей от 2,5 до 7 лет, систематические записи речи детей, которые родители проводили на протяжении 4-х лет, а также аудио- и видеоматериалы (общий объем - 11 часов). Мы обнаружили взаимовлияние трех языковых систем на разных уровнях детской речи и проанализировали детские формообразовательные межъязыковые русско-английские и татаро-английские инновации, представляющие интерес в области онтобилингвологии и онтолингвистики. Также было установлено, что дети респондентов в процессе коммуникации на трех языках уже в раннем возрасте используют не только номинативную, но и металингвистическую функцию языка. Наше исследование подтверждает, что взаимопроникновение языковых структур в речи детей в рамках ныне популярного явления изучения и усвоения неродного английского языка детьми дошкольного возраста в условиях билингвальных регионов требует более серьезного и детального изучения специалистами по детской речи.
The article compares new foreign neologisms in the 19th and 21st century Hungarian and Russian dictionaries. Hence, not only two linguistic cultures, but also two historical periods come under scrutiny. To identify new loanwords, the corpora of major Russian and Hungarian dictionaries were compiled. The study analyses methods used in lexicographic description of new words in Hungarian and Russian dictionaries within the specified period. It also focuses on general observations made on specific linguistic material. A dictionary-based corpus (corpus in a square) proved to be effective in diachronic studies. It helped to reveal the main trends in lexical borrowing in two unrelated languages. Corpora provide data on the word origin from different time periods, the first inclusion of a lexical item, its origin, meaning, semantic evolution and thematic nearness, statistical data, etc. The scope of available data depends on the level of lexicographic description. It was found to be very different for the 19th and 21st century dictionaries with more extensive data provided by the latter. The study shows that corpora can be an important first step in linguistic research across a range of avenues.