К.К. Бидерина1, Д.И. Гребенков2
1,2 ИПУ РАН (Москва, Россия)
1 kkbiderina@edu.hse.ru, 2 grebenkov-d-i@mail.ru
Постановка проблемы. Автоматическое извлечение терминов из русскоязычных научных текстов является актуальной задачей компьютерной лингвистики и информационного поиска. Вопрос эффективности больших языковых моделей без дообучения в сравнении с адаптированными архитектурами остаётся недостаточно изученным, особенно для русского языка и специализированных научных корпусов.
Цель. Провести исследование и сопоставление двух подходов к автоматическому извлечению терминов из русскоязычных научных текстов – специализированного нейросетевого решения на основе архитектуры T5, дообученного в постановке задачи «последовательность-в-последовательность» и универсальных больших языковых моделей.
Результаты. Реализован комплекс программ и моделей для извлечения терминов из аннотаций и полных текстов научных публикаций на основе датасета CL-RuTerm3. Дополнительно проведён эксперимент по оценке больших языковых моделей в условиях few-shot обучения.
Практическая значимость. Разработанное специализированное решение может использоваться для автоматической и полуавтоматической разметки терминов в русскоязычных научных текстах, а также для создания и расширения терминологических корпусов. Результаты сравнительного анализа показывают целесообразность использования больших языковых моделей в качестве вспомогательного инструмента или базовой линии.
Бидерина К.К., Гребенков Д.И. Seq2seq-подход и большие языковые модели в задаче извлечения терминов из русскоязычных научных текстов // Системы высокой доступности. 2026. Т. 22. № 1. С. 71−75. DOI: https://doi.org/10.18127/j20729472-202601-14
- Мамонтова А., Ищенко Р., Воронцов К. RuTermEval-2024: Cross-domain Automatic Term Extraction and Classification in Russian scientific texts // Труды Междунар. конф. «Диалог 2025». 2025.
- Kageura K., Umino B. Methods of automatic term recognition: A review. Terminology. International Journal of Theoretical and Applied Issues in Specialized Communication. 1996. V. 3. № 2. P. 259–289.
- Pazienza M.T., Pennacchiotti M., Zanzotto F.M. Terminology extraction: an analysis of linguistic and statistical approaches. Knowledge mining: Proceedings of the NEMIS 2004 final conference. Berlin, Heidelberg: Springer. 2005. P. 255–279. https://doi.org/10.1007/3-540-32394-5_20
- Terryn A.R. et al. Analysing the impact of supervised machine learning on automatic term extraction: HAMLET vs TermoStat. Proceedings of the international conference on recent advances in natural language processing (RANLP 2019). 2019. P. 1012–1021.
- Terryn A.R. et al. Termeval 2020: Shared task on automatic term extraction using the annotated corpora for term extraction research (acter) dataset. Proceedings of the 6th International Workshop on Computational Terminology. 2020. P. 85–94.
- Hazem A. et al. Termeval 2020: Taln-ls2n system for automatic term extraction. International Workshop on Computational Terminology (COMPUTERM). 2020.
- Lang C. et al. Transforming term extraction: Transformer-based approaches to multilingual term extraction across domains. Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021. 2021. P. 3607–3620.
- Tran H.T.H. et al. Ensembling transformers for cross-domain automatic term extraction. International Conference on Asian Digital Libraries. Springer. 2022. P. 90–100.
- Banerjee S., Chakravarthi B.R., McCrae J.P. Large language models for few-shot automatic term extraction. International Conference on Applications of Natural Language to Information Systems. Lecture Notes in Computer Science. V. 14762. Cham: Springer. 2024. P. 137–150. https://doi.org/10.1007/978-3-031-70239-6_10
- Рожков И., Лукачевитч Н. Methods for Recognizing Nested Terms. arXiv:2504.16007. 2025. https://doi.org/10.48550/arXiv.2504.16007
- Семак В.В., Большакова Е.И. Comparing Transformer-Based Approaches for Term Recognition in Russian texts // Труды Междунар. конф. «Диалог 2025». 2025.

