Р.Р. Тукумбетова1, М.С. Улизко2, Т.В. Коренькова3, А.А. Артамонов4
1−4 Национальный исследовательский ядерный университет «МИФИ» (Москва, Россия)
1 rrtukumbetova@mephi.ru, 2 msulizko@mephi.ru, 3 korenkova.tanya@mail.ru, 4 aaartamonov@mephi.ru
Постановка проблемы. Приведено сравнение эффективности работы методов машинного обучения в решении задач классификации библиографических записей научных публикаций из реферативных баз данных по шести технологиям ядерного топливного цикла. Для решения задачи выделения научных публикаций, относящихся к рассматриваемым технологиям, и классификации их по технологиям авторы применили следующие наиболее распространенные дискриминативные модели машинного обучения. 1. Для первой итерации обучения моделей были использованы библиографические записи из Международной системы ядерной информации INIS. По итогам работы каждой модели была составлена матрица ошибок. 2. Для оценки эффективности моделей и сравнения результатов были использованы следующие метрики качества классификации: доля правильных ответов, точность, полнота, F1-мера, время обучения, время предсказания. По итогам первой итерации обучения данные были также протестированы на данных из INIS. Эффективность работы пяти моделей была удовлетворительной с незначительными различиями в метриках. Далее была проверена работа моделей на данных из реферативной базы данных Scopus, размеченных вручную экспертом в области ядерных технологий. В ходе проверки разработанных моделей на данных из Scopus были выявлено снижение их производительности, причина которой может быть в различии в размере аннотаций библиографических записей публикаций, на которых происходило обучение моделей, и данных, используемых для тестирования. Учитывая, что данные Scopus обладают более разнообразной и подробной аннотацией, было проведено дообучение моделей с использованием как данных INIS, так и данных Scopus, в предположении, что этот процесс позволит модели адаптироваться к новой информации и улучшить свою способность к обобщению. После проведения дообучения моделей наблюдалось значительное улучшение результатов метрик качества классификации по сравнению с предыдущим результатом. Обучение моделей на двух наборах данных позволило им лучше улавливать закономерности в данных, что положительно сказалось на качестве предсказания.
Цель. Решить задачу классификации научных публикаций по заранее заданным тематикам ядерного топливного цикла.
Результаты. Разработаны пять алгоритмов машинного обучения и проведено сравнение их работы. Проведено сравнение алгоритмов по семи метрикам. Выделен алгоритм с наилучшим результатом для решения данной задачи.
Практическая значимость. Возможность применения алгоритма для решения различных задач классификации научных публикаций по нескольким тематикам.
Тукумбетова Р.Р., Улизко М.С., Коренькова Т.В., Артамонов А.А. Сравнение методов классификации данных в машинном обучении на примере научных публикаций по ядерному топливному циклу // Системы высокой доступности. 2025. Т. 21. № 1. С. 25−38. DOI: https://doi.org/10.18127/j20729472-202501-03
- Malugin, M., Antonov, E., Artamonov, A. Designing a System for Monitoring the Publication Activity of the Scientific Organization // Physics of Particles and Nuclei. 2024. 55(3). P. 554–556.
- Гусев П.Ю. Разработка системы классификации текстов по научным специальностям с применением методов машинного обучения // Вестник Новосибирского государственного университета. Сер.: Информационные технологии. 2021. Т. 19. Вып. 1. С. 39–47.
- Козлов П.А. и др. Сравнительный анализ бинарных классификаторов на массиве научных публикаций. Заводская лаборатория // Диагностика материалов. 2022. Т. 88. Вып. 7. С. 79–87.
- Международная система ядерной информации (ИНИС). Available at: https://www.iaea.org/ru/resursy/mezhdunarodnaya-sistema-yadernoy-informacii-inis, accessed 30.06.2024.
- Scikit-learn, Logistic Regression. Available at: https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression, accessed 04.11.2024.
- Scikit-learn, Support Vector Machines. Available at: https://scikit-learn.org/stable/modules/svm.html#svm-classification, accessed 04.11.2024.
- Van der Maaten L., Hinton G. Visualizing data using t-SNE // Journal of machine learning research. 2008. V. 9. Iss. 11.
- Scikit-learn, Decision Trees. Available at: https://scikit-learn.org/stable/modules/tree.html accessed 04.11.2024.
- Scikit-learn, Random Forests. Available at: https://scikit-learn.org/stable/modules/ensemble.html#forest, accessed 04.11.2024.
- Scikit-learn, Gradient-boosted trees. Available at: https://scikit-learn.org/stable/modules/ensemble.html#gradient-boosting, accessed 04.11.2024.
- Dube, Lindani & Verster, Tanja. Assessing the performance of machine learning models for default prediction under missing data and class imbalance: A simulation study. ORiON. 2024. V. 40. P. 1–24.

