О.Ю. Ерёмин – к.т.н., кафедра «Компьютерные системы и сети», МГТУ им. Н.Э.Баумана
E-mail: ereminou@bmstu.ru
М.В. Степанова – аспирант, кафедра «Компьютерные системы и сети», МГТУ им. Н.Э.Баумана
E-mail: stepanova@bmstu.ru
Постановка проблемы. Интернет вещей (Internet of Things) представляет собой совокупность вычислительных узлов, на основе которых может быть сформирована распределенная вычислительная система. В отличие от хорошо исследованных распределенных систем [1] в системе на основе узлов Интернета вещей невозможно использовать имеющиеся алгоритмы распределения вычислительных заданий по узлам, так как особенностями такой системы являются постоянное изменение числа вычислительных узлов, низкоскоростные каналы связи с постоянно меняющимися параметрами, высокие уровни помех в радиоканалах. Поэтому создание адаптивного метода, который позволит учитывать изменчивость платформы Интернета вещей и обеспечить распределение вычислительных заданий по ее узлам является актуальной задачей.
Цель. Предложить решение задачи распределения заданий по вычислительным узлам в распределенной системе Интернета вещей с использованием адаптивного подхода на основе методов обучения с подкреплением.
Результаты. Для решения данной задачи предложен подход, основанный на методе обучения с подкреплением (алгоритм многорукого бандита), в котором система Интернета вещей представляется в качестве окружающей среды, с которой взаимодействует узел распределения вычислительных заданий, представленный в качестве агента. В данном подходе агент не строит модель окружающей среды, а принимает решения на основании своих предыдущих действий и ответной реакции на них от окружающей среды, что позволит не учитывать сложность и гетерогенность вычислительной системы на основе Интернета вещей.
Практическая значимость. Предложенный подход может быть использован при разработке программного обеспечения, предназначенного для целей и задач функционирования платформы Интернета вещей; для программного обеспечения, которое используют классические распределенные и параллельные вычислительные системы, а также для работы на платформах с постоянно меняющимися параметрами.
- Гельфанд И.М., Пятецкий-Шапиро И.И., Цетлин М.Л. О некоторых классах игр и игр автоматов // Доклады АН СССР.
1963. Т. 152. № 4. С. 845−848.
- Саттон Р.С., Барто Э.Г. Обучение с подкреплением = Reinforcement Learning. М.: ДМК пресс. 2020. 552 с.
- Черненький В.М., Семкин П.С. Метод описания процессов выполнения заданий в мультипрограммных и мультипроцессорных системах // Вестник МГТУ им. Н.Э. Баумана. Сер. Приборостроение. 2014. №1 (94). С. 121–132.
- Yeckle J., Rivera W. Mapping and characterization of applications in heterogeneous distributed systems // Proceedings of the 7th World Multiconference on Systemics. Cybernetics and Informatics (SCI2003). 2003. P. 1−6.
- Воеводин В.В., Воеводин Вл.В. Параллельные вычисления. СПб: БХВ-Петербург. 2002. 608 c.
- Mischel W., Ebbesen E.B., Zeiss A.R. Cognitive and attentional mechanisms in delay of gratification // Journal of personality and social psychology. 1972. V. 21. № 2. P. 204−218.
- Akanmu S., Garg R., Gilal A. Towards an Improved Strategy for Solving Multi-Armed Bandit Problem // International Journal of Innovative Technology and Exploring Engineering (IJITEE). 2019. V. 8. № 12.
- Mignona A., Rocha R. An Adaptive Implementation of ε-Greedy in Reinforcement Learning // Procedia Computer Science 109C. 2017. P. 1146–1151
- Peter A., Fischer N., Fischer P. Finite-time Analysis of the Multiarmed Bandit Problem // Machine Learning. 2002. № 47. P. 235–256.