Multi-Agent Reinforcement Learning (MARL) has seen revolutionary breakthroughs with its successful application to multi-agent cooperative tasks such as robot swarms control, autonomous vehicle coordination, and computer games. In this paper, we propose Noisy-MAPPO, which achieves more than 90% winning rates in all StarCraft Multi-agent Challenge (SMAC) scenarios. First, we theoretically generalize Proximal Policy Optimization (PPO) to Multi-agent PPO (MAPPO) by lower bound of Trust Region Policy Optimization (TRPO). However, we find the shared advantage values in such MAPPO objective function may mislead the learning of some agents, which are not related to these advantage values, called The Policies Overfitting in Multi-agent Cooperation(POMAC). Therefore, we propose noise advatange-value methods (Noisy-MAPPO and Advantage-Noisy-MAPPO) to solve this problem. The experimental results show that our random noise method improves the performance of vanilla MAPPO by 80% in some Super-Hard scenarios in SMAC. We open-source the code at \url{https://github.com/hijkzzz/noisy-mappo}.


翻译:多机构强化学习(MARL)取得了革命性突破,成功地应用于多机构合作任务,如机器人群控、自动车辆协调和计算机游戏等。在本文中,我们建议诺西-马帕普(Noisy-MAPO)在所有StarCraft多剂挑战(SMAC)方案(SMAC)中实现超过90%的得分率。首先,我们理论上通过信任区域政策优化(TRPO)的较低约束,将普罗西马政策优化(PPPO)推广到多试剂PPPO(MAPO)。然而,我们发现,在这种MAPO目标功能中的共享优势值可能会误导某些与这些优势值无关的代理人的学习,称为“多机构合作(POMAC)中的过度政策 ” 。因此,我们提出了解决该问题的噪音adovatege值方法(Nosy-MAPO(PO)和Advantage-Noisy-MAPPO(PO) 。实验结果表明,我们随机噪音方法在SMAPO(VAMPO)的一些超级Hard情景中提高了80%的性表现。我们打开了代码的代码。

0
下载
关闭预览

相关内容

Linux导论,Introduction to Linux,96页ppt
专知会员服务
79+阅读 · 2020年7月26日
深度强化学习策略梯度教程,53页ppt
专知会员服务
182+阅读 · 2020年2月1日
【强化学习资源集合】Awesome Reinforcement Learning
专知会员服务
95+阅读 · 2019年12月23日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
60+阅读 · 2019年10月17日
强化学习最新教程,17页pdf
专知会员服务
177+阅读 · 2019年10月11日
TensorFlow 2.0 学习资源汇总
专知会员服务
67+阅读 · 2019年10月9日
最前沿:深度解读Soft Actor-Critic 算法
极市平台
54+阅读 · 2019年7月28日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
RL 真经
CreateAMind
5+阅读 · 2018年12月28日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
spinningup.openai 强化学习资源完整
CreateAMind
6+阅读 · 2018年12月17日
OpenAI丨深度强化学习关键论文列表
中国人工智能学会
17+阅读 · 2018年11月10日
【OpenAI】深度强化学习关键论文列表
专知
11+阅读 · 2018年11月10日
已删除
清华大学研究生教育
3+阅读 · 2018年6月30日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Accelerated Methods for Deep Reinforcement Learning
Arxiv
6+阅读 · 2019年1月10日
Arxiv
5+阅读 · 2018年6月12日
VIP会员
相关VIP内容
Linux导论,Introduction to Linux,96页ppt
专知会员服务
79+阅读 · 2020年7月26日
深度强化学习策略梯度教程,53页ppt
专知会员服务
182+阅读 · 2020年2月1日
【强化学习资源集合】Awesome Reinforcement Learning
专知会员服务
95+阅读 · 2019年12月23日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
60+阅读 · 2019年10月17日
强化学习最新教程,17页pdf
专知会员服务
177+阅读 · 2019年10月11日
TensorFlow 2.0 学习资源汇总
专知会员服务
67+阅读 · 2019年10月9日
相关资讯
最前沿:深度解读Soft Actor-Critic 算法
极市平台
54+阅读 · 2019年7月28日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
RL 真经
CreateAMind
5+阅读 · 2018年12月28日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
spinningup.openai 强化学习资源完整
CreateAMind
6+阅读 · 2018年12月17日
OpenAI丨深度强化学习关键论文列表
中国人工智能学会
17+阅读 · 2018年11月10日
【OpenAI】深度强化学习关键论文列表
专知
11+阅读 · 2018年11月10日
已删除
清华大学研究生教育
3+阅读 · 2018年6月30日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Top
微信扫码咨询专知VIP会员