Дата-центричный подход к классификации коротких текстов в условиях дисбаланса классов

500 руб

Журнал «Системы высокой доступности» №1 за 2026 г.

Статья в номере:

Тип статьи: научная статья

DOI: https://doi.org/10.18127/j20729472-202601-01

УДК: 004

Ключевые слова: Обработка естественного языка дисбаланс классов короткие тексты очистка данных плотностная кластеризация

Авторы:

Б.Б. Баишев1, А.П. Халов2

1 Назарбаев Университет (г. Астана, Республика Казахстан)

2 ФИЦ ИУ РАН (Москва, Россия)

1 baishevbasar@gmail.com, 2 khalov.a@phystech.edu

Аннотация:

Постановка проблемы. Обработка текстов систем технической поддержки осложнена дисбалансом классов и шумом. Традиционные методы балансировки (синтетическое расширение) малоэффективны на зашумленных данных.

Цель. Повысить точность классификации путем предварительной плотностной очистки обучающей выборки.

Результаты. Разработан многоэтапный конвейер, снизивший зашумленность на 16,53%. Отмечено, что точность модели (метрика R@3) составила 97,4%. Экспериментально доказано преимущество стратегии очистки над синтетическим расширением.

Практическая значимость. Полученные результаты позволили сократить время разрешения заявок и снизить нагрузку на операторов за счет автоматизации распределения заявок с надежностью 97% (при попадании в список трех лучших рекомендаций).

Страницы: 8-11

Для цитирования

Баишев Б.Б., Халов А.П. Дата-центричный подход к классификации коротких текстов в условиях дисбаланса классов // Системы высокой доступности. 2026. Т. 22. No 1. С. 8?11. DOI: https://doi.org/10.18127/j20729472-202601-01

Список источников

Chawla N.V., Bowyer K.W., Hall L.O., Kegelmeyer W.P. SMOTE: synthetic minority over-samplingtechnique. J. Artif. Intell. Res. 2002. V. 16. P. 321-357. https://doi.org/10.1613/jair.953
Zha D. et al. Data-centric Artificial Intelligence: A Survey. ACM Comput. Surv. 2025. V. 57. No Art. 129. https://doi.org/10.48550/ arXiv.2303.10158
Salton G., Buckley C. Term-weighting approaches in automatic text retrieval. Inf. Process. Manag. 1988. V. 24. No 5. P. 513-523. https://doi.org/10.1016/0306-4573(88)90021-0
Batiuk T., Dosyn D. Intellectual analysis of textualdata in social networks using BERT and XGBOOST. Visn. Nac. Univ. L?viv. Politeh.: Inf. Sist. Merezi. 2025. V. 17. P. 44-60. https://doi.org/10.23939/sisn2025.17.044
Zemp M. Text classification of servicedesk tickets. Master'sthesis. Zurich Univ. Appl. Sci. 2021.
Parmar M., Tiwari A. Enhancing text classification performance using stackingensemble. Proc. 5th Int. Conf. Mobile Comput. Sustain. Inform. (ICMCSI). 2024. P. 166-174. https://doi.org/10.1109/ICMCSI61536.2024.00031
Akhbardeh F. et al. Handling extremeclass imbalance in technical logbook datasets. Proc. ACL-IJCNLP. 2021. P. 4034-4045. https://doi.org/10.18653/v1/2021.acl-long.312
Padurariu C., Breaban M.E. Dealing with data imbalance in text classification. Procedia Comput. Sci. 2019. V. 159. P. 736-745. https://doi.org/10.1016/j.procs.2019.09.229
Asyaky M.S., Mandala R. Improving the performance of HDBSCAN on shorttext clustering. Proc. 8th Int. Conf. Adv. Informat. (ICAICTA). 2021. P. 1-6. https://doi.org/10.1109/ICAICTA53211.2021.9640285 1
McInnes L., Healy J., Astels S. hdbscan: Hierarchical density based clustering. J. Open Source Softw. 2017. V. 2. No 11. P. 205. https://doi.org/10.21105/joss.00205 1
Халов А.П., Атаева О.М. Автоматические и полуавтоматические методы построения графа знаний предметной области и расширения онтологии // Электронные библиотеки. 2025. V. 28. No 6. P. 1481-1519. https://doi.org/10.26907/1562-5419-2025-28-6-1481-1519 1
Wolpert D.H. Stacked generalization. Neural Netw. 1992. V. 5. No 2. P. 241-259. https://doi.org/10.1016/S0893-6080(05)80023-1 1
Micci-Barreca D. A preprocessing scheme for high-cardinality categorical attributes. SIGKDD Explor. Newsl. 2001. V. 3. No 1. P. 27-32. https://doi.org/10.1145/507533.507538 1
Chen T., Guestrin C. XGBoost: A scalabletree boosting system. Proc. 22nd ACM SIGKDD (KDD). 2016. P. 785-794. https://doi.org/10.1145/2939672.2939785 1
Akiba T. et al. Optuna: A next-generation hyperparameter optimization framework. Proc. 25th ACM SIGKDD (KDD). 2019. P. 2623-2631. https://doi.org/10.1145/3292500.3330701

Дата поступления: 24.02.2026

Одобрена после рецензирования: 26.02.2026

Принята к публикации: 10.03.2026