И.А. Попова1, Г.И. Афанасьев2, В.Б. Тимофеев3, Ю.Е. Гапанюк4
1–4 МГТУ им. Н.Э. Баумана (Москва, Россия)
1 popovai1@student.bmstu.ru, 2 gaipcs@bmstu.ru, 3 vbtimofeev@yandex.ru, 4 gapyu@bmstu.ru
Постановка проблемы. Предварительная обработка данных в задачах машинного обучения является важным этапом процесса исследования данных. Чтобы автоматизировать процесс обработки данных, сделать его более подходящим под исследуемые данные, методы предварительной обработки данных реализуют в системах AutoML.
Цель. Сравнить качество работы систем AutoML для построения целевой модели и ее обучения.
Результаты. Проведено исследование работы современных систем AutoML. Предложены рекомендации по применению алгоритмов машинного обучения без учителя для задач заполнения пропусков, обнаружения и удаления аномалий, снижения размерности набора данных.
Практическая значимость. Проведенное исследование позволяет определить применимость современных систем AutoML для построения модели машинного обучения, лучше понять особенности систем, установить возможность их применения при решении практических задач.
- Жерон О. Прикладное машинное обучение с помощью Scikit-Learn и TensorFlow. Концепции, инструменты и техники для создания интеллектуальных систем. М.: Диалектика-Вильямс. 2018.
- Официальный сайт библиотеки Scikit-learn [Электронный ресурс] / URL: https://scikit-learn.org/stable (дата обращения: 14.03.2022).
- Официальный сайт библиотеки Matplotlib [Электронный ресурс] / URL: https://matplotlib.org (дата обращения: 14.03.2022).
- Официальный сайт библиотеки Missingno [Электронный ресурс] / URL: https://github.com/ResidentMario/missingno (дата обращения: 14.03.2022).
- Handle missing data in Python [Электронный ресурс] / URL: https://machinelearningmastery.com/handle-missing-data-python/ (дата обращения 24.03.2022).
- Дэви С., Мейсман А., Мохамед А. Основы Data Science и Big Data. Python и наука о данных. Санкт-Петербург: Питер. 2017.
- Айвазян С.А., Енюков И.С., Мешалкин Л.Д. Прикладная статистика: основы моделирования и первичная обработка данных. М.: Финансы и статистика. 1983.
- Santu S.K. AutoML to date and beyond: Challenges and opportunities // arXiv. 2010. P. 4076–4084. DOI: 10.1109/CVPR. 2017.434.
- GooglePlayStoreApps [Электронный ресурс] / URL: https://www.kaggle.com/datasets/lava18/google-play-store-apps (дата обращения: 07.11.2022).
- Koroteev M.V. Review of some modern trends in machine learning technology // E-Management. 2018. V. 1. № 1. P. 26–35.
- Karmaker S., Hassan M.M., Smith M.J., Xu L., Zhai C., Veeramachaneni K. AutoML to date and beyond: Challenges and opportunities // ACM Computing Surveys. 2022. V. 54. P. 1–36.
- Галкин В.А., Биушкин И.С., Журавлева У.В. Анализ программного кода с использованием ансамблевых методов машинного обучения // Динамика сложных систем. 2020. № 2. С. 34–41. DOI: 10.18127/j19997493-202002-04.
- Мышенков К.С., Некула Хаддад. Использование методов машинного обучения для прогнозирования неврологических заболеваний // Динамика сложных систем. 2022. № 1. С. 66–74. DOI: 10.18127/j19997493-202201-07.
- Гапанюк Ю.Е., Зенгер А.С., Цветкова А.К., Кочкин С.А., Черков В.В. Построение рекомендательной системы на основе подхода гибридных интеллектуальных информационных систем // Динамика сложных систем. 2020. № 2. С. 42–53. DOI: 10.18127/j19997493-202002-05.
- Assessing the quality of machine learning models [Электронный ресурс] / URL: https://nbviewer.org/github/ugapanyuk/courses_ current/blob/main/notebooks/metrics/metrics.ipynb (дата обращения: 03.02.2025).

