Seq2seq-подход и большие языковые модели в задаче извлечения терминов из русскоязычных научных текстов

500 руб

Журнал «Системы высокой доступности» №1 за 2026 г.

Статья в номере:

Тип статьи: научная статья

DOI: https://doi.org/10.18127/j20729472-202601-14

УДК: 004.855

Ключевые слова: Автоматическое извлечение терминов большие языковые модели seq2seq T5 RuTermEval-2024 CL-RuTerm3 компью-терная лингвистика обработка естественного языка few-shot обучение русскоязычные научные тексты

Авторы:

К.К. Бидерина1, Д.И. Гребенков2

1,2 ИПУ РАН (Москва, Россия)

1 kkbiderina@edu.hse.ru, 2 grebenkov-d-i@mail.ru

Аннотация:

Постановка проблемы. Автоматическое извлечение терминов из русскоязычных научных текстов является актуальной задачей компьютерной лингвистики и информационного поиска. Вопрос эффективности больших языковых моделей без дообучения в сравнении с адаптированными архитектурами остаётся недостаточно изученным, особенно для русского языка и специализированных научных корпусов.

Цель. Провести исследование и сопоставление двух подходов к автоматическому извлечению терминов из русскоязычных научных текстов – специализированного нейросетевого решения на основе архитектуры T5, дообученного в постановке задачи «последовательность-в-последовательность» и универсальных больших языковых моделей.

Результаты. Реализован комплекс программ и моделей для извлечения терминов из аннотаций и полных текстов научных публикаций на основе датасета CL-RuTerm3. Дополнительно проведён эксперимент по оценке больших языковых моделей в условиях few-shot обучения.

Практическая значимость. Разработанное специализированное решение может использоваться для автоматической и полуавтоматической разметки терминов в русскоязычных научных текстах, а также для создания и расширения терминологических корпусов. Результаты сравнительного анализа показывают целесообразность использования больших языковых моделей в качестве вспомогательного инструмента или базовой линии.

Страницы: 71-75

Для цитирования

Бидерина К.К., Гребенков Д.И. Seq2seq-подход и большие языковые модели в задаче извлечения терминов из русскоязычных научных текстов // Системы высокой доступности. 2026. Т. 22. № 1. С. 71−75. DOI: https://doi.org/10.18127/j20729472-202601-14

Список источников

Мамонтова А., Ищенко Р., Воронцов К. RuTermEval-2024: Cross-domain Automatic Term Extraction and Classification in Russian scientific texts // Труды Междунар. конф. «Диалог 2025». 2025.
Kageura K., Umino B. Methods of automatic term recognition: A review. Terminology. International Journal of Theoretical and Applied Issues in Specialized Communication. 1996. V. 3. № 2. P. 259–289.
Pazienza M.T., Pennacchiotti M., Zanzotto F.M. Terminology extraction: an analysis of linguistic and statistical approaches. Knowledge mining: Proceedings of the NEMIS 2004 final conference. Berlin, Heidelberg: Springer. 2005. P. 255–279. https://doi.org/10.1007/3-540-32394-5_20
Terryn A.R. et al. Analysing the impact of supervised machine learning on automatic term extraction: HAMLET vs TermoStat. Proceedings of the international conference on recent advances in natural language processing (RANLP 2019). 2019. P. 1012–1021.
Terryn A.R. et al. Termeval 2020: Shared task on automatic term extraction using the annotated corpora for term extraction research (acter) dataset. Proceedings of the 6th International Workshop on Computational Terminology. 2020. P. 85–94.
Hazem A. et al. Termeval 2020: Taln-ls2n system for automatic term extraction. International Workshop on Computational Terminology (COMPUTERM). 2020.
Lang C. et al. Transforming term extraction: Transformer-based approaches to multilingual term extraction across domains. Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021. 2021. P. 3607–3620.
Tran H.T.H. et al. Ensembling transformers for cross-domain automatic term extraction. International Conference on Asian Digital Libraries. Springer. 2022. P. 90–100.
Banerjee S., Chakravarthi B.R., McCrae J.P. Large language models for few-shot automatic term extraction. International Conference on Applications of Natural Language to Information Systems. Lecture Notes in Computer Science. V. 14762. Cham: Springer. 2024. P. 137–150. https://doi.org/10.1007/978-3-031-70239-6_10
Рожков И., Лукачевитч Н. Methods for Recognizing Nested Terms. arXiv:2504.16007. 2025. https://doi.org/10.48550/arXiv.2504.16007
Семак В.В., Большакова Е.И. Comparing Transformer-Based Approaches for Term Recognition in Russian texts // Труды Междунар. конф. «Диалог 2025». 2025.

Дата поступления: 24.02.2026

Одобрена после рецензирования: 26.02.2026

Принята к публикации: 10.03.2026