Б.Т. Гизатуллин1, О.А. Невзорова2
1-2 Казанский (Приволжский) федеральный университет (г. Казань, Россия)
1 gizat.blt@gmail.com, 2 onevzoro@gmail.com
Постановка проблемы. Ручное присвоение УДК трудоёмко и субъективно. Для русскоязычных математических статей автоматическая классификация осложняется терминологией и формулами, поэтому важно сравнить практическую эффективность основных подходов.
Цель. Сравнить эффективность подходов к автоматической классификации УДК и определить наиболее результативные сочетания представлений текста и моделей для корпуса в двух постановках: single-label (первый код) и multi-label (все коды).
Результаты. Собран и очищен корпус статей с извлечёнными текстами и кодами УДК. Сравнены TF-IDF, Word2Vec и Sci-Rus-tiny в сочетании с LogReg и CatBoost. Показано, какие комбинации устойчивее на корпусе и где они ошибаются.
Практическая значимость. Результаты можно использовать для построения систем автоматической категоризации публикаций, подсказки УДК авторам/редакторам и выявления ошибочно присвоенных кодов в базах данных.
Гизатуллин Б.Т., Невзорова О.А. Сравнительный анализ подходов к автоматической классификации научных математических статей на основе кодов УДК // Системы высокой доступности. 2026. Т. 22. № 1. С. 21−24. DOI: https://doi.org/10.18127/
j20729472-202601-04
- Romanov A., Lomotin K., Kozlova E. Automatization of Scientific Articles Classification According to Universal Decimal Classifier. Supplementary Proceedings of the Sixth International Conference on Analysis of Images, Social Networks and Texts (AIST 2017). CEUR Workshop Proceedings. 2017. V. 1975. P. 122–133.
- Roy A., Ghosh S. Automated Subject Identification using the Universal Decimal Classification: The ANN Approach. SRELS Journal of Information and Knowledge. 2023. V. 60. № 2. P. 69–76. DOI: 10.17821/srels/2023/v60i2/170963
- Borovič M., Ojsteršek M., Strnad M. A Hybrid Approach to Recommending Universal Decimal Classification Codes for Cataloguing in Slovenian Digital Libraries. IEEE Access. 2022. V. 10. P. 85595–85605. DOI: 10.1109/ACCESS.2022.3198706
- Mamedov V., Kovalevsky D., Morozov D., Stolyarov S., Ospichev S. Hierarchical classification of scientific articles using deep learning (using the UDC hierarchy as an example). Modeling and Analysis of Information Systems. 2025. V. 32. № 1. P. 80–94. DOI: 10.18255/1818-1015-2025-1-80-94
- Borovič M., Tomovski E., Li Dobnik T., Majninger S. Evaluating Proprietary and Open-Weight Large Language Models as Universal Decimal Classification Recommender Systems. Applied Sciences. 2025. V. 15. № 14. Art. 7666. DOI: 10.3390/app15147666
- Gerasimenko N., Vatolin A., Ianina A., Vorontsov K. SciRus: Tiny and Powerful Multilingual Encoder for Scientific Texts. Doklady Mathematics. 2024. V. 110. Suppl. 1. P. S193–S202. DOI: 10.1134/S1064562424602178

