А.Н. Алфимцев1, С.А. Сакулин2, В.Э. Большаков3, Н.В. Быков4, М.С. Товарнов5, Н.С. Власова6
1–6 МГТУ им. Н.Э. Баумана (Москва, Россия)
Постановка проблемы. Многие реальные задачи содержат социальные дилеммы, которые выражают противоречия между индивидуальными и общественными интересами. Такие задачи могут быть решены с помощью глубокого мультиагентного обучения. Данная статья посвящена проблеме решения социальных дилемм на основе репутации и мультиагентного обучения с подкреплением.
Цель. Разработать метод решения социальных дилемм на основе репутации и глубокого мультиагентного обучения с подкреплением.
Результаты. Предложен метод решения социальных дилемм на основе репутации и глубокого мультиагентного обучения с подкреплением. Показано, что отличие метода от известных аналогов основано на применении репутации агента в составе функции награды; репутация, в свою очередь, зависит от степени сотрудничества агента с другими агентами. Программная реализация метода выполнена на языке Python с использованием открытой библиотеки Pytorch. Оценка эффективности метода проведена на основе сравнения с методами решения социальных дилемм без учета сотрудничества между агентами.
Практическая значимость. Результаты работы могут быть использованы для создания программного обеспечения беспилотных аппаратов транспортной системы города. Баланс между коллективными и индивидуальными интересами посредством решения социальных дилемм в «умном городе» может быть достигнут за счет применения предложенного в статье метода.
Алфимцев А.Н., Сакулин С.А., Большаков В.Э., Быков Н.В., Товарнов М.С., Власова Н.С. Метод решения социальных дилемм на основе репутации и глубокого мультиагентного обучения с подкреплением // Нейрокомпьютеры: разработка, применение. 2022. T. 24. № 1. С. 5-15. DOI: https://doi.org/10.18127/j19998554-202201-01
- Badjatiya P. et al. Status-quo policy gradient in Multi-Agent Reinforcement Learning // arXiv preprint arXiv. 2021. 2111.11692.
- Leibo J.Z., Zambaldi V., Lanctot M., Marecki J., Graepel T. Multi-agent reinforcement learning in sequential social dilemmas // arXiv preprint arXiv. 2017. 1702. 03037.
- Pathak D. et al. Curiosity-driven exploration by self-supervised prediction //International conference on machine learning // PMLR. 2017. P. 2778–2787.
- Klyubin A.S., Polani D., Nehaniv C.L. Empowerment: A universal agent-centric measure of control // IEEE congress on evolutionary computation. 2005. V. 1. P. 128–135.
- Sequeira P. et al. Emerging social awareness: Exploring intrinsic motivation in multiagent learning // IEEE international conference on development and learning (ICDL). 2011. V. 2. P. 1–6.
- Suh Y.H. et al. A sim2real framework enabling decentralized agents to execute MADDPG tasks // Proceedings of the Workshop on Distributed Infrastructures for Deep Learning. 2019. P. 1–6.
- Pretorius A. et al. A game-theoretic analysis of networked system control for common-pool resource management using multi-agent reinforcement learning // arXiv preprint arXiv:2010.07777. 2020.
- Heuillet A., Couthouis F., Díaz-Rodríguez N. Collective eXplainable AI: Explaining Cooperative Strategies and Agent Contribution in Multiagent Reinforcement Learning with Shapley Values // arXiv preprint arXiv:2110.01307. 2021.
- Schmid K. et al. Distributed Emergent Agreements with Deep Reinforcement Learning // International Joint Conference on Neural Networks (IJCNN). IEEE. 2021. P. 1–8.
- Chelarescu P. Deception in Social Learning: A Multi-Agent Reinforcement Learning Perspective // arXiv preprint arXiv:2106.05402. 2021.
- Wong A. et al. Multiagent deep reinforcement learning: Challenges and directions towards human-like approaches // arXiv preprint arXiv:2106.15691. 2021.
- Pan W. et al. A Dynamically Adaptive Approach to Reducing Strategic Interference for Multi-agent Systems // IEEE Transactions on Cognitive and Developmental Systems. 2021.
- Fan D., Shen H., Dong L. Multi-Agent Distributed Deep Deterministic Policy Gradient for Partially Observable Tracking // Actuators. Multidisciplinary Digital Publishing Institute. 2021. V. 10. № 10. P. 268.
- Wang T., Zhang L. Coordinated scheduling of integrated energy microgrid with multi-energy hubs based on MADDPG and two-layer game // Journal of Renewable and Sustainable Energy. 2021. V. 13. № 6. P. 065502.
- Samvelyan M. et al. The starcraft multi-agent challenge // arXiv preprint arXiv:1902.04043. 2019.
- Liu I. J. et al. Cooperative exploration for multi-agent deep reinforcement learning // International Conference on Machine Learning. PMLR. 2021. P. 6826–6836.
- Kuba J. et al. Settling the variance of multi-agent policy gradients // Advances in Neural Information Processing Systems. 2021. V. 34.
- Vinyals O. et al. Grandmaster level in StarCraft II using multi-agent reinforcement learning // Nature. 2019. V. 575. № 7782.
P. 350–354.