Multi-Agent Reinforcement Learning (MARL) has seen revolutionary breakthroughs with its successful application to multi-agent cooperative tasks such as robot swarms control, autonomous vehicle coordination, and computer games. Recent works have applied the Proximal Policy Optimization (PPO) to the multi-agent tasks, called Multi-agent PPO (MAPPO). However, previous literature shows that the vanilla MAPPO with a shared value function may not perform as well as Independent PPO (IPPO) and the finetuned QMIX. Thus MAPPO-agent-specific (MAPPO-AS) further improves the performance of vanilla MAPPO and IPPO by the artificial agent-specific features. In addition, there is no literature that gives a theoretical analysis of the working mechanism of MAPPO. In this paper, we firstly theoretically generalize single-agent PPO to the vanilla MAPPO, which shows that the vanilla MAPPO is approximately equivalent to optimizing a multi-agent joint policy with the original PPO. Secondly, we find that vanilla MAPPO faces the problem of \textit{The Policies Overfitting in Multi-agent Cooperation(POMAC)} as they learn policies by the sampled centralized advantage values. Then POMAC may lead to updating the policies of some agents in a suboptimal direction and prevent the agents from exploring better trajectories. To solve the POMAC problem, we propose a novel policy regularization method, i.e, Noisy-MAPPO, and Advantage-Noisy-MAPPO, which smooth out the advantage values by noise. The experimental results show that the average performance of Noisy-MAPPO is better than that of finetuned QMIX and MAPPO-AS, and is much better than the vanilla MAPPO. We open-source the code at \url{https://github.com/hijkzzz/noisy-mappo}.


翻译:多点强化学习(MARL)取得了革命性突破,它成功地应用到多试剂合作任务中,例如机器人群控、自动车辆协调以及计算机游戏。最近的工作对多试剂任务应用了Proximal政策优化(PPO),称为多试剂PPO(MAPPO )。然而,以前的文献显示,具有共同价值功能的Vanilla MAPPO可能不会像独立PPO(IPPO)和微调QMIX一样。因此,MAPPO(MAPPO)专门(MAPO)进一步提高了Vanilla MAPPO和IPPO(IPO)的性能。此外,没有任何文献对MAPO(PO)的工作机制进行理论分析。 在本文中,我们首先从理论上将一个PAPOPO(PO)(PO)(PO(IPPO) (IPPPPO) (IPPO) (PPO) (PO) (PO) (PO-MOL) (M) (PO(MAPO) (PO) (PO) (PO) (PO) (PO) (O-PO) (O) (O) (O-POL) (O) (POL) (POL) (O(O(O) (O) (O) (POL) (POL) (POL) (OD) (O) (O) (O) (O) (O) (POL) (POL) (OD) (OD) (OD) (OD) (OD) (O(POL) (O) (O) (O(POL) (OD) (POL) (OD) (OD) (OD) (OD) (OD) (OD) (OD) (OD) (O) (O(POL) (OD) (O) (O) (OD) (OD) (O) (OD) (O) (O) (O) (POL) (OD) (O) (OD) (OD) (OD) (OD) (OD) (OD) (OD) (OD) (OD) (O

0
下载
关闭预览

相关内容

深度强化学习策略梯度教程,53页ppt
专知会员服务
178+阅读 · 2020年2月1日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
58+阅读 · 2019年10月17日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
39+阅读 · 2019年10月9日
最前沿:深度解读Soft Actor-Critic 算法
极市平台
53+阅读 · 2019年7月28日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
RL 真经
CreateAMind
5+阅读 · 2018年12月28日
【OpenAI】深度强化学习关键论文列表
专知
11+阅读 · 2018年11月10日
已删除
AI科技评论
4+阅读 · 2018年8月12日
【SIGIR2018】五篇对抗训练文章
专知
12+阅读 · 2018年7月9日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
Arxiv
1+阅读 · 2021年10月1日
Untangling Braids with Multi-agent Q-Learning
Arxiv
0+阅读 · 2021年9月29日
Accelerated Methods for Deep Reinforcement Learning
Arxiv
6+阅读 · 2019年1月10日
Arxiv
11+阅读 · 2018年4月25日
VIP会员
相关资讯
最前沿:深度解读Soft Actor-Critic 算法
极市平台
53+阅读 · 2019年7月28日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
RL 真经
CreateAMind
5+阅读 · 2018年12月28日
【OpenAI】深度强化学习关键论文列表
专知
11+阅读 · 2018年11月10日
已删除
AI科技评论
4+阅读 · 2018年8月12日
【SIGIR2018】五篇对抗训练文章
专知
12+阅读 · 2018年7月9日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
Top
微信扫码咨询专知VIP会员