Д.С. Куманькин1, С.А. Ямашкин2
1,2 Национальный исследовательский Мордовский государственный университет им. Н.П. Огарёва (г. Саранск, Россия)
Постановка проблемы. В настоящее время для систем машинного обучения, применяемых в рамках задач анализа данных дистанционного зондирования Земли (ДЗЗ), требуются автоматизация и стандартизация этапов подготовки моделей машинного обучения, для чего необходимо организовать эффективные конвейеры машинного обучения, способные воспроизводить полный жизненный цикл моделей. В связи с этим определение основных принципов разработки подобных систем является актуальной задача.
Цель. Выполнить сравнительный анализ архитектурных принципов проектирования конвейеров машинного обучения, направленных на решение задачи управления организационным процессом автоматизированного анализа данных ДЗЗ.
Результаты. Представлены основные этапы жизненного цикла моделей машинного обучения для задач ДЗЗ. Проведен обзор существующих решений и описаны архитектурные принципы, лежащие в основе разработки эффективных конвейеров машинного обучения. Предложена архитектура конвейера машинного обучения, а также рассмотрены ее основные компоненты и их связь.
Практическая значимость. Результаты исследования могут быть использованы для реализации эффективных и масштабируемых систем машинного обучения, направленных на решение задач, возникающих в области ДЗЗ.
Куманькин Д.С., Ямашкин С.А. Архитектурные принципы построения конвейеров машинного обучения для решения задачи управления процессом анализа данных дистанционного зондирования Земли // Нелинейный мир. 2023. Т. 21. №3. С. 27-37. DOI: https://doi.org/10.18127/j20700970-202303-03
- Alpaydin E. Introduction to machine learning. Cambridge. Mass: MIT Press. 2004. 415 p.
- Коберниченко В.Г. Радиоэлектронные системы дистанционного зондирования Земли: Учеб. пособие. Издательство Уральского университета. 2016.
- Schowengerdt R.A. Remote sensing, models, and methods for image processing. 3rd ed. Burlington. MA: Academic Press. 2007. 515 p.
- Ishikawa F., Yoshioka N. How Do Engineers Perceive Difficulties in Engineering of Machine-Learning Systems? Questionnaire Survey // 2019 IEEE/ACM Joint 7th International Workshop on Conducting Empirical Studies in Industry (CESI) and 6th International Workshop on Software Engineering Research and Industrial Practice (SER&IP). Montreal, QC. Canada: IEEE. 2019. P. 2–9.
- Hewage N., Meedeniya D. Machine Learning Operations: A Survey on MLOps Tool Support. 2022.
- Гудфеллоу Я., Бенджио И., Курвилль А. Глубокое обучение. Изд. 2-е, испр. М.: ДМК Пресс. 2018. 651 p.
- Çürükoğlu N., Özyildirim B.M. Deep Learning on Mobile Systems // 2018 Innovations in Intelligent Systems and Applications Conference (ASYU). 2018. P. 1–4.
- Liberty E., et al. Elastic Machine Learning Algorithms in Amazon SageMaker. 2020. P. 737731.
- Baylor D., et al. TFX: A TensorFlow-Based Production-Scale Machine Learning Platform // Proceedings of the 23rd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. Halifax NS Canada: ACM. 2017. P. 1387–1395.
- Moroney L. The Firebase Realtime Database // The Definitive Guide to Firebase: Build Android Apps on Google’s Mobile Platform / Ed. Moroney L. Berkeley. CA: Apress. 2017. P. 51–71.
- Чекмарев М.А., Клюев С.Г., Бобров Н.Д. Анализ методов обеспечения безопасности систем машинного обучения // Воронежский институт высоких технологий. Оптимизация и информационные технологии. 2022. С. 67.
- Barrak A., Eghan E.E., Adams B. On the Co-evolution of ML Pipelines and Source Code - Empirical Study of DVC Projects // 2021 IEEE International Conference on Software Analysis, Evolution and Reengineering (SANER). 2021. P. 422–433.
- Data Version Control with Python and DVC – Real Python [Electronic resource]. URL: https://realpython.com/python-data-version-control/ (accessed: 19.06.2023).
- Python R. Data Version Control with Python and DVC – Real Python [Electronic resource]. URL: https://realpython.com/python-data-version-control/ (accessed: 11.06.2023).
- Hapke H., Nelson C. Building Machine Learning Pipelines. O’Reilly Media, Inc. 2020. 367 p.
- Qian B., et al. Orchestrating the Development Lifecycle of Machine Learning-based IoT Applications: A Taxonomy and Survey // ACM Comput. Surv. 2020. V. 53. № 4. P. 82:1-82:47.
- Sugimura P., Hartl F. Building a Reproducible Machine Learning Pipeline. P. 4.
- Shaikh S., et al. An End-To-End Machine Learning Pipeline That Ensures Fairness Policies: arXiv:1710.06876. arXiv. 2017.