350 руб
Журнал «Нейрокомпьютеры: разработка, применение» №5 за 2025 г.
Статья в номере:
Метод первоначального размещения виртуальных машин с графическим процессором в гетерогенных центрах обработки данных
Тип статьи: научная статья
DOI: https://doi.org/10.18127/j19998554-202505-01
УДК: 004.41
Авторы:

А.В. Тутов1
1 Институт проблем управления им. В.А. Трапезникова Российской академии наук (Москва, Россия)

1 andrew_vidnoe@mail.ru

Аннотация:

Постановка проблемы. Центры обработки данных (ЦОД) должны предоставлять достаточно ресурсов для бесперебойной работы размещенных в них приложений в условиях переменной нагрузки. Кроме традиционных Интернет-приложений, увеличивается число приложений, требующих высокопроизводительных вычислений, таких как машинное обучение, обработка больших данных, приложения инфраструктуры виртуальных рабочих столов и т.д. Из-за высоких требований к параллельным вычислениям со стороны приложений возрастает спрос на серверы с графическими процессорами (GPU). ЦОД становятся гетерогенными, включающими в себя традиционные серверы и GPU-серверы. Методам размещения виртуальных машин в традиционных облачных ЦОД посвящено множество работ, но для гетерогенных центров распределение и предоставление GPU виртуальным машинам требует дальнейшего изучения.

Цель. Предложить метод первоначального размещения виртуальных машин с GPU в гетерогенных ЦОД, позволяющий учесть такие противоречивые критерии, как энергопотребление, равномерную загрузку ресурсов, нарушение SLA-соглашений, и получить решение за приемлемое время.

Результаты. Разработан метод первоначального размещения виртуальных машин на серверах с графическими процессорами с поддержкой технологии NVIDIA MIG. Отмечено, что в основе этого метода лежит модель многокритериальной комбинаторной оптимизации с бинарными переменными, причем критериями являются энергопотребление, равномерная загрузка ресурсов и нарушения SLA-соглашений. Предложен муравьиный алгоритм, позволяющий получить решение за приемлемое время. По результатам имитационного моделирования установлено, что предложенный метод по сравнению с используемыми на практике эвристиками «первый подходящий» и «самый подходящий» позволяет получить сбалансированное решение по трем критериям.

Практическая значимость. Предложенный метод может быть внедрен в планировщик ресурсов облачных платформ для первоначального размещения виртуальных машин с GPU, что позволит повысить эффективность используемого оборудования, снизить затраты на энергопотребление и обеспечить выполнение SLA-соглашений.

Страницы: 5-16
Для цитирования

Тутов А.В. Метод первоначального размещения виртуальных машин с графическим процессором в гетерогенных центрах обработки данных // Нейрокомпьютеры: разработка, применение. 2025. Т. 27. № 5. С. 5–16. DOI: https://doi.org/10.18127/ j19998554-202505-01

Список источников
  1. Мирин С. Российский рынок облачных инфраструктурных сервисов 2024 [Электронный ресурс] / URL: https://survey.ikscon­sulting.ru/page59801703.html (дата обращения: 20.07.2025).
  2. Dias A.H.T., Correia L.H.A., Malheiros N. A systematic literature review on virtual machine consolidation // ACM Computing Surveys (CSUR). 2021. V. 54. № 8. P. 1–38.
  3. Saidi K., Bardou D. Task scheduling and VM placement to resource allocation in Cloud computing: challenges and opportunities // Cluster Computing. 2023. V. 26. № 5. P. 3069–3087.
  4. Lin J. et al. Energy-aware virtual machine placement based on a holistic thermal model for cloud data centers // Future Generation Computer Systems. 2024. V. 161. P. 302–314.
  5. Тутов А.В., Фархадов М.П. Метод и алгоритм статического размещения виртуальных машин для повышения эффективности функционирования инфокоммуникационной системы центров обработки данных // Нейрокомпьютеры: разработка, применение. 2024. T. 26. № 5. С. 107–119. DOI: 10.18127/j19998554-202405-10.
  6. Toutov A. et al. Optimizing the migration of virtual machines in cloud data centers // International Journal of Embedded and Real-Time Communication Systems (IJERTCS). 2022. V. 13. № 1. P. 1–19.
  7. Тутов А.В. и др. Многокритериальная оптимизация размещения виртуальных машин по физическим серверам в облачных центрах обработки данных // T-Comm: Телекоммуникации и транспорт. 2021. Т. 15. № 1. С. 28–34.
  8. Baydoun A.M., Zekri A.S. Network-, cost-, and renewable-aware ant colony optimization for energy-efficient virtual machine placement in cloud datacenters // Future Internet. 2025. V. 17. № 6. P. 261.
  9. Siavashi A., Momtazpour M. GPUCloudSim: an extension of CloudSim for modeling and simulation of GPUs in cloud data centers // The Journal of Supercomputing. 2019. V. 75. № 5. P. 2535–2561.
  10. NVIDIA Virtual GPU (vGPU) Software [Электронный ресурс] / URL: https://docs.nvidia.com/vgpu (дата обращения: 20.07.2025).
  11. Hong C.H., Spence I., Nikolopoulos D.S. GPU virtualization and scheduling methods: A comprehensive survey // ACM Computing Surveys (CSUR). 2017. V. 50. № 3. P. 1–37.
  12. NVIDIA Multi-Instance GPU User Guide [Электронный ресурс] / URL: https://docs.nvidia.com/datacenter/tesla/mig-user-guide (дата обращения: 20.07.2025).
  13. Siavashi A., Momtazpour M. A multi-objective framework for optimizing GPU-enabled VM placement in cloud data centers with multi-instance GPU technology // arXiv preprint arXiv:2502.01909. 2025.
  14. Weng Q. et al. Beware of fragmentation: Scheduling {GPU-Sharing} workloads with fragmentation gradient descent // 2023 USENIX Annual Technical Conference (USENIX ATC 23). 2023. P. 995–1008.
  15. Kulkarni A.K., Annappa B. GPU-aware resource management in heterogeneous cloud data centers // The Journal of Supercomputing. 2021. V. 77. № 11. P. 12458–12485.
  16. Sivaraman H., Kurkure U., Vu L. TECN: task selection and placement in GPU enabled clouds using neural networks // 2019 International Conference on High Performance Computing & Simulation (HPCS). IEEE. 2019. P. 890–896.
  17. Garg A. et al. Virtual machine placement solution for VGPU enabled clouds // 2019 International Conference on High Performance Computing & Simulation (HPCS). IEEE. 2019. P. 897–903.
  18. Tan C. et al. Serving DNN models with multi-instance gpus: A case of the reconfigurable machine scheduling problem // arXiv preprint arXiv:2109.11067. 2021.
  19. Siavashi A., Momtazpour M. gVMP: A multi-objective joint VM and vGPU placement heuristic for API remoting-based GPU virtualization and disaggregation in cloud data centers // Journal of Parallel and Distributed Computing. 2023. V. 172. P. 97–113.
  20. Chung W.C., Tong J.S., Chen Z.H. A fine-grained GPU sharing and job scheduling for deep learning jobs on the cloud // The Journal of Supercomputing. 2025. V. 81. № 2. P. 361.
  21. Amaral M. et al. Topology-aware gpu scheduling for learning workloads in cloud environments // Proceedings of the International Conference for High Performance Computing, Networking, Storage and Analysis. 2017. P. 1–12.
  22. Zhu X. et al. Vapor: A GPU sharing scheduler with communication and computation pipeline for distributed deep learning // 2021 IEEE International Conference on Parallel & Distributed Processing with Applications, Big Data & Cloud Computing, Sustainable Computing & Communications, Social Computing & Networking. IEEE. 2021. P. 108–116.
  23. Li B. et al. Miso: exploiting multi-instance GPU capability on multi-tenant GPU clusters // Proceedings of the 13th Symposium on Cloud Computing. 2022. P. 173–189.
  24. Lee M. et al. ParvaGPU: Efficient spatial GPU sharing for large-scale DNN inference in cloud environments // SC24: International Conference for High Performance Computing, Networking, Storage and Analysis. IEEE. 2024. P. 1–14.
  25. Arima E. et al. Optimizing hardware resource partitioning and job allocations on modern GPUs under power caps // Workshop Proceedings of the 51st International Conference on Parallel Processing. 2022. P. 1–10.
  26. Fan X., Weber W.D., Barroso L.A. Power provisioning for a warehouse-sized computer // ACM SIGARCH computer architecture news. 2007. V. 35. № 2. P. 13–23.
  27. Wang S. et al. Study on improved ant colony optimization for bin-packing problem // 2010 International Conference On Computer Design and Applications. IEEE. 2010. V. 4. P. V4-489–V4-491.
  28. Dorigo M., Birattari M., Stutzle T. Ant colony optimization // IEEE Computational Intelligence Magazine. 2007. V. 1. № 4. P. 28–39.
  29. Прокуровский А.А., Тутова Н.В., Андреев И.А. Модели и методы маршрутизации информационных ресурсов в сетях доставки контента на основе отечественного программного обеспечения // Управление большими системами. 2025. Вып. 116. С. 321–341.
  30. Ferdaus M.H. et al. Virtual machine consolidation in cloud data centers using ACO metaheuristic // European Conference on Parallel Processing. Cham: Springer International Publishing. 2014. P. 306–317.
Дата поступления: 22.08.2025
Одобрена после рецензирования: 15.09.2025
Принята к публикации: 23.09.2025