Н.С. Курганов1, П.Г. Ключарев2
1, 2 Московский государственный технический университет имени Н.Э. Баумана (национальный исследовательский университет) (Москва, Россия)
1 nikk178@mail.ru, 2 pk.iu8@yandex.ru
Постановка проблемы. Рост качества генерации текстов большими языковыми моделями существенно усложняет задачу автоматического определения сгенерированных и человеческих текстов, особенно текстов на русском языке. При этом влияние длины текста на результат классификации остается недостаточно изученным. В практических условиях классификаторы работают с текстами различного объема, однако в большинстве подходов не учитывается длина как значимый фактор, что может приводить к искажению метрик качества и снижению устойчивости моделей. В связи с этим актуальным является исследование зависимости эффективности классификации сгенерированных LLM русскоязычных текстов от их длины.
Цель. Улучшить качество методов определения сгенерированных LLM русскоязычных текстов разной длины.
Результаты. Представлен метод токенизации текста, позволяющий учитывать русскоязычные тексты разной длины. Отмечено, что этот метод применялся для векторизации текстовых данных, которые в последующем используются для обучения методов определения сгенерированных LLM текстов. С использованием данного метод показана достаточно высокая эффективность по определению сгенерированных LLM русскоязычных текстов разной длины в ходе дообучения классификатора текста на основе трансформера-энкодерера архитектуры BERT. Установлено, что рост точности определения сгенерированных LLM текстов на примере русского языка по сравнению со стандартным методом токенизации по максимальной длине текста стал лучше от 30% до 50% для классификатора на основе трансформера-энкодера, а точность классификации текста составила от 73% до 97% для разных валидационных наборов данных, которые рассматриваются в данной работе, что является достаточно хорошим результатом относительно других методов определения сгенерированных LLM текстов.
Практическая значимость. Результаты исследования могут быть использованы для подготовки текстовых данных и обучения нейросетевых методов для решения задачи по определению сгенерированных LLM текстов разной длины практически для любого языка, на котором написан текст.
Курганов Н.С., Ключарев П.Г. Влияние длины текста на результат классификации сгенерированных LLM русскоязычных текстов // Динамика сложных систем. 2026. Т. 20. № 3. С. 18−27. DOI: 10.18127/j19997493-202603-02
- Junchao Wu, Shu Yang, Runzhe Zhan, Yulin Yuan. A Survey on LLM-Generated Text Detection: Necessity, Methods, and Future Directions. Computational Linguistics. 2025. V. 51.
- Wang, Yuxia, Mansurov J., Ivanov P. M4: Multi-generator, multi-domain, and multi-lingual black-box machine-generated text detection. Proceedings of the 18th Conference of the European Chapter of the Association for Computational Linguistics. 2024. V. 1. P. 1369–1407.
- Macko D., Moro R., Uchendu A., Lucas J. MULTITuDE: Large-Scale Multilingual Machine-Generated Text Detection Benchmark. In Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing. 2023. V. 1. P. 9960–9987.
- Shamardina T., Mikhailov V., Chernianskii D., Fenogenova A. Findings of the The RuATD Shared Task 2022 on Artificial Text Detection in Russian. Computational Linguistics and Intellectual Technologies: Proceedings of the International Conference «Dialogue 2022». 2022. V. 1. P. 1–15.
- Gritsay G., Grabovoy A., Chekhovich Yu. Open access dataset for machine-generated text detection in Russian. Mendeley Data. 2022. V. 1.
- Hurst A., Lerer A., Goucher A.P., Perelman A. GPT-4o System Card. Computation and Language. 2024. V. 1. P. 1–33.
- Patterson D., Gonzalez J., Hölzle U., Le Q. The Carbon Footprint of Machine Learning Training Will Plateau, Then Shrink. IEEE. 2022. V. 1. P. 18–28.
- Lin Xi V., Mihaylov T., Artetxe M., Wang T. Few-shot Learning with Multilingual Language Models. EMNLP 2022. 2022. V. 1. P. 9019–9052.
- Zmitrovich D., Abramov A., Kalmykov A., Tikhonova M. A Family of Pretrained Transformer Language Models for Russian. LREC-COLING 2024. 2024. V. 1. P. 507–524.
- Devlin J., Chang Ming-Wei, Lee K., Toutanova K. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. Computation and Language. 2019.
- Курганов Н.С. Разработка метода определения сгенерированных большими языковыми моделями русскоязычных текстов // Сб. науч. трудов XXVII Междунар. научно-практ. конф. «Нейроинформатика 2025». 2025. С. 58–69.

