Discovering successful coordinated behaviors is a central challenge in Multi-Agent Reinforcement Learning (MARL) since it requires exploring a joint action space that grows exponentially with the number of agents. In this paper, we propose a mechanism for achieving sufficient exploration and coordination in a team of agents. Specifically, agents are rewarded for contributing to a more diversified team behavior by employing proper intrinsic motivation functions. To learn meaningful coordination protocols, we structure agents' interactions by introducing a novel framework, where at each timestep, an agent simulates counterfactual rollouts of its policy and, through a sequence of computations, assesses the gap between other agents' current behaviors and their targets. Actions that minimize the gap are considered highly influential and are rewarded. We evaluate our approach on a set of challenging tasks with sparse rewards and partial observability that require learning complex cooperative strategies under a proper exploration scheme, such as the StarCraft Multi-Agent Challenge. Our methods show significantly improved performances over different baselines across all tasks.


翻译:发现成功的协调行为是多机构强化学习(MARL)的一个中心挑战,因为它需要探索一个随着代理人人数的激增而成倍增长的联合行动空间。 在本文件中,我们提出了一个机制,以便在一个代理人团队中实现充分的探索和协调。 具体地说,代理人通过使用适当的内在激励功能为更加多样化的团队行为做出贡献而得到奖励。 为了学习有意义的协调协议,我们通过引入一个新颖的框架来构建代理人的互动,在每一个时间步骤上,一个代理人模拟其政策的反事实推出,并通过一系列计算来评估其他代理人当前行为与其目标之间的差距。 尽量减少差距的行动被认为具有高度影响力,并获得奖励。 我们评估了我们关于一套挑战性任务的方法,即少有回报和部分可视性,这需要根据适当的探索计划学习复杂的合作战略,例如StarCraft多机构挑战。 我们的方法显示,在所有任务的不同基线上的表现显著改善。

0
下载
关闭预览

相关内容

【图与几何深度学习】Graph and geometric deep learning,49页ppt
深度强化学习策略梯度教程,53页ppt
专知会员服务
176+阅读 · 2020年2月1日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
57+阅读 · 2019年10月17日
量化金融强化学习论文集合
专知
13+阅读 · 2019年12月18日
动物脑的好奇心和强化学习的好奇心
CreateAMind
10+阅读 · 2019年1月26日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Reinforcement Learning: An Introduction 2018第二版 500页
CreateAMind
11+阅读 · 2018年4月27日
Deep Reinforcement Learning 深度增强学习资源
数据挖掘入门与实战
7+阅读 · 2017年11月4日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Arxiv
0+阅读 · 2021年12月7日
Residual Policy Learning
Arxiv
4+阅读 · 2018年12月15日
Relational Deep Reinforcement Learning
Arxiv
10+阅读 · 2018年6月28日
VIP会员
相关资讯
量化金融强化学习论文集合
专知
13+阅读 · 2019年12月18日
动物脑的好奇心和强化学习的好奇心
CreateAMind
10+阅读 · 2019年1月26日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Reinforcement Learning: An Introduction 2018第二版 500页
CreateAMind
11+阅读 · 2018年4月27日
Deep Reinforcement Learning 深度增强学习资源
数据挖掘入门与实战
7+阅读 · 2017年11月4日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Top
微信扫码咨询专知VIP会员