Recently, deep multiagent reinforcement learning (MARL) has become a highly active research area as many real-world problems can be inherently viewed as multiagent systems. A particularly interesting and widely applicable class of problems is the partially observable cooperative multiagent setting, in which a team of agents learns to coordinate their behaviors conditioning on their private observations and commonly shared global reward signals. One natural solution is to resort to the centralized training and decentralized execution paradigm. During centralized training, one key challenge is the multiagent credit assignment: how to allocate the global rewards for individual agent policies for better coordination towards maximizing system-level's benefits. In this paper, we propose a new method called Q-value Path Decomposition (QPD) to decompose the system's global Q-values into individual agents' Q-values. Unlike previous works which restrict the representation relation of the individual Q-values and the global one, we leverage the integrated gradient attribution technique into deep MARL to directly decompose global Q-values along trajectory paths to assign credits for agents. We evaluate QPD on the challenging StarCraft II micromanagement tasks and show that QPD achieves the state-of-the-art performance in both homogeneous and heterogeneous multiagent scenarios compared with existing cooperative MARL algorithms.

20
下载
关闭预览

相关内容

【MIT】反偏差对比学习,Debiased Contrastive Learning
专知会员服务
83+阅读 · 2020年7月4日
深度强化学习策略梯度教程,53页ppt
专知会员服务
131+阅读 · 2020年2月1日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
33+阅读 · 2019年10月17日
强化学习最新教程,17页pdf
专知会员服务
96+阅读 · 2019年10月11日
强化学习扫盲贴:从Q-learning到DQN
夕小瑶的卖萌屋
40+阅读 · 2019年10月13日
强化学习三篇论文 避免遗忘等
CreateAMind
12+阅读 · 2019年5月24日
Transferring Knowledge across Learning Processes
CreateAMind
10+阅读 · 2019年5月18日
逆强化学习-学习人先验的动机
CreateAMind
6+阅读 · 2019年1月18日
meta learning 17年:MAML SNAIL
CreateAMind
9+阅读 · 2019年1月2日
RL 真经
CreateAMind
4+阅读 · 2018年12月28日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
16+阅读 · 2018年5月25日
Reinforcement Learning: An Introduction 2018第二版 500页
CreateAMind
10+阅读 · 2018年4月27日
强化学习族谱
CreateAMind
16+阅读 · 2017年8月2日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Accelerated Methods for Deep Reinforcement Learning
Arxiv
5+阅读 · 2019年1月10日
Arxiv
6+阅读 · 2018年12月26日
Hierarchical Deep Multiagent Reinforcement Learning
Arxiv
6+阅读 · 2018年9月25日
Relational Deep Reinforcement Learning
Arxiv
6+阅读 · 2018年6月28日
Arxiv
3+阅读 · 2018年6月12日
Arxiv
11+阅读 · 2018年4月25日
小贴士
相关论文
Accelerated Methods for Deep Reinforcement Learning
Arxiv
5+阅读 · 2019年1月10日
Arxiv
6+阅读 · 2018年12月26日
Hierarchical Deep Multiagent Reinforcement Learning
Arxiv
6+阅读 · 2018年9月25日
Relational Deep Reinforcement Learning
Arxiv
6+阅读 · 2018年6月28日
Arxiv
3+阅读 · 2018年6月12日
Arxiv
11+阅读 · 2018年4月25日
相关资讯
强化学习扫盲贴:从Q-learning到DQN
夕小瑶的卖萌屋
40+阅读 · 2019年10月13日
强化学习三篇论文 避免遗忘等
CreateAMind
12+阅读 · 2019年5月24日
Transferring Knowledge across Learning Processes
CreateAMind
10+阅读 · 2019年5月18日
逆强化学习-学习人先验的动机
CreateAMind
6+阅读 · 2019年1月18日
meta learning 17年:MAML SNAIL
CreateAMind
9+阅读 · 2019年1月2日
RL 真经
CreateAMind
4+阅读 · 2018年12月28日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
16+阅读 · 2018年5月25日
Reinforcement Learning: An Introduction 2018第二版 500页
CreateAMind
10+阅读 · 2018年4月27日
强化学习族谱
CreateAMind
16+阅读 · 2017年8月2日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Top
微信扫码咨询专知VIP会员