Multi-Agent Reinforcement Learning (MARL) has seen revolutionary breakthroughs with its successful application to multi-agent cooperative tasks such as robot swarms control, autonomous vehicle coordination, and computer games. Recent works have applied the Proximal Policy Optimization (PPO) to the multi-agent tasks, called Multi-agent PPO (MAPPO). However, the MAPPO in current works lacks theoretical support, and requires artificial agent-specific features, called MAPPO-agent-specific (MAPPO-AS). In addition, the performance of MAPPO-AS is still lower than the finetuned QMIX on the popular benchmark environment StarCraft Multi-agent Challenge (SMAC). In this paper, we firstly theoretically generalize single-agent PPO to the vanilla MAPPO, which shows that the vanilla MAPPO is equivalent to optimizing a multi-agent joint policy with the original PPO approximately. Secondly, since the centralized advantages function in vanilla MAPPO lacks a credit allocation mechanism, which may lead to updating the policies of some agents in a suboptimal direction. Then this problem may prevent the agents from exploring better trajectories, called \textit{The Policies Overfitting in Multi-agent Cooperation(POMAC)}. To solve the POMAC, we propose the Noisy Advantage-Values (Noisy-MAPPO and Advantage-Noisy-MAPPO) which smooth out the advantage values, likewise label smoothing. The experimental results show that the average performance of Noisy-MAPPO is better than that of finetuned QMIX and MAPPO-AS, and is much better than the vanilla MAPPO. We open-source the code at \url{https://github.com/hijkzzz/noisy-mappo}.


翻译:多用途强化学习(MARL)取得了革命性突破,它成功地应用到多用途合作任务中,比如机器人群群控、自动车辆协调和计算机游戏。最近的工作对多用途任务应用了Proximal政策优化(PPO),称为多用途PPO(MAPO MAPO ) 。然而,当前工作的MAPO缺乏理论支持,需要人工剂专用功能,称为MAPOPO(MAPO)专用试剂(MAPO-AS)。此外,MAAPO-AS的性能仍然低于在流行基准环境StarCraft多用途工具挑战(SMAAC)上对QMIX的微调。在这篇文章中,我们首先理论上将一个POPO(POPO ) 的单一剂优化到Vanilla POPO(MPO) 。 Vanilla MAPPO(MAPO) 的中央优势功能缺乏一个公开的信用分配机制,这可能会更新某些代理人在亚型基准环境中的QMIX(S-MADA) 高级操作优势。随后, 这个问题可能让MAC(NOPO(O) 高级政策) 更好取代了我们的PO(NODUPO) 。

0
下载
关闭预览

相关内容

专知会员服务
46+阅读 · 2021年6月27日
深度强化学习策略梯度教程,53页ppt
专知会员服务
178+阅读 · 2020年2月1日
【强化学习资源集合】Awesome Reinforcement Learning
专知会员服务
94+阅读 · 2019年12月23日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
59+阅读 · 2019年10月17日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
最前沿:深度解读Soft Actor-Critic 算法
极市平台
54+阅读 · 2019年7月28日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
【推荐】直接未来预测:增强学习监督学习
机器学习研究会
6+阅读 · 2017年11月24日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Arxiv
8+阅读 · 2021年5月21日
The StarCraft Multi-Agent Challenge
Arxiv
3+阅读 · 2019年2月11日
Arxiv
11+阅读 · 2018年4月25日
VIP会员
相关资讯
最前沿:深度解读Soft Actor-Critic 算法
极市平台
54+阅读 · 2019年7月28日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
【推荐】直接未来预测:增强学习监督学习
机器学习研究会
6+阅读 · 2017年11月24日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Top
微信扫码咨询专知VIP会员