Метод решения социальных дилемм на основе репутации и глубокого мультиагентного обучения с подкреплением

350 руб

Журнал «Нейрокомпьютеры: разработка, применение» №1 за 2022 г.

Статья в номере:

DOI: https://doi.org/10.18127/j19998554-202201-01

УДК: 681.142

Ключевые слова: Мультиагентное обучение обучение с подкреплением социальная дилемма кооперативное поведение репутация

Авторы:

А.Н. Алфимцев1, С.А. Сакулин2, В.Э. Большаков3, Н.В. Быков4, М.С. Товарнов5, Н.С. Власова6

1–6 МГТУ им. Н.Э. Баумана (Москва, Россия)

Аннотация:

Постановка проблемы. Многие реальные задачи содержат социальные дилеммы, которые выражают противоречия между индивидуальными и общественными интересами. Такие задачи могут быть решены с помощью глубокого мультиагентного обучения. Данная статья посвящена проблеме решения социальных дилемм на основе репутации и мультиагентного обучения с подкреплением.

Цель. Разработать метод решения социальных дилемм на основе репутации и глубокого мультиагентного обучения с подкреплением.

Результаты. Предложен метод решения социальных дилемм на основе репутации и глубокого мультиагентного обучения с подкреплением. Показано, что отличие метода от известных аналогов основано на применении репутации агента в составе функции награды; репутация, в свою очередь, зависит от степени сотрудничества агента с другими агентами. Программная реализация метода выполнена на языке Python с использованием открытой библиотеки Pytorch. Оценка эффективности метода проведена на основе сравнения с методами решения социальных дилемм без учета сотрудничества между агентами.

Практическая значимость. Результаты работы могут быть использованы для создания программного обеспечения беспилотных аппаратов транспортной системы города. Баланс между коллективными и индивидуальными интересами посредством решения социальных дилемм в «умном городе» может быть достигнут за счет применения предложенного в статье метода.

Страницы: 5-15

Для цитирования

Алфимцев А.Н., Сакулин С.А., Большаков В.Э., Быков Н.В., Товарнов М.С., Власова Н.С. Метод решения социальных дилемм на основе репутации и глубокого мультиагентного обучения с подкреплением // Нейрокомпьютеры: разработка, применение. 2022. T. 24. № 1. С. 5-15. DOI: https://doi.org/10.18127/j19998554-202201-01

Список источников

Badjatiya P. et al. Status-quo policy gradient in Multi-Agent Reinforcement Learning // arXiv preprint arXiv. 2021. 2111.11692.
Leibo J.Z., Zambaldi V., Lanctot M., Marecki J., Graepel T. Multi-agent reinforcement learning in sequential social dilemmas // arXiv preprint arXiv. 2017. 1702. 03037.
Pathak D. et al. Curiosity-driven exploration by self-supervised prediction //International conference on machine learning // PMLR. 2017. P. 2778–2787.
Klyubin A.S., Polani D., Nehaniv C.L. Empowerment: A universal agent-centric measure of control // IEEE congress on evolutionary computation. 2005. V. 1. P. 128–135.
Sequeira P. et al. Emerging social awareness: Exploring intrinsic motivation in multiagent learning // IEEE international conference on development and learning (ICDL). 2011. V. 2. P. 1–6.
Suh Y.H. et al. A sim2real framework enabling decentralized agents to execute MADDPG tasks // Proceedings of the Workshop on Distributed Infrastructures for Deep Learning. 2019. P. 1–6.
Pretorius A. et al. A game-theoretic analysis of networked system control for common-pool resource management using multi-agent reinforcement learning // arXiv preprint arXiv:2010.07777. 2020.
Heuillet A., Couthouis F., Díaz-Rodríguez N. Collective eXplainable AI: Explaining Cooperative Strategies and Agent Contribution in Multiagent Reinforcement Learning with Shapley Values // arXiv preprint arXiv:2110.01307. 2021.
Schmid K. et al. Distributed Emergent Agreements with Deep Reinforcement Learning // International Joint Conference on Neural Networks (IJCNN). IEEE. 2021. P. 1–8.
Chelarescu P. Deception in Social Learning: A Multi-Agent Reinforcement Learning Perspective // arXiv preprint arXiv:2106.05402. 2021.
Wong A. et al. Multiagent deep reinforcement learning: Challenges and directions towards human-like approaches // arXiv preprint arXiv:2106.15691. 2021.
Pan W. et al. A Dynamically Adaptive Approach to Reducing Strategic Interference for Multi-agent Systems // IEEE Transactions on Cognitive and Developmental Systems. 2021.
Fan D., Shen H., Dong L. Multi-Agent Distributed Deep Deterministic Policy Gradient for Partially Observable Tracking // Actuators. Multidisciplinary Digital Publishing Institute. 2021. V. 10. № 10. P. 268.
Wang T., Zhang L. Coordinated scheduling of integrated energy microgrid with multi-energy hubs based on MADDPG and two-layer game // Journal of Renewable and Sustainable Energy. 2021. V. 13. № 6. P. 065502.
Samvelyan M. et al. The starcraft multi-agent challenge // arXiv preprint arXiv:1902.04043. 2019.
Liu I. J. et al. Cooperative exploration for multi-agent deep reinforcement learning // International Conference on Machine Learning. PMLR. 2021. P. 6826–6836.
Kuba J. et al. Settling the variance of multi-agent policy gradients // Advances in Neural Information Processing Systems. 2021. V. 34.
Vinyals O. et al. Grandmaster level in StarCraft II using multi-agent reinforcement learning // Nature. 2019. V. 575. № 7782.
P. 350–354.

Дата поступления: 14.12.2021

Одобрена после рецензирования: 27.12.2021

Принята к публикации: 12.01.2022