Cooperative game is a critical research area in the multi-agent reinforcement learning (MARL). Global reward game is a subclass of cooperative games, where all agents aim to maximize the global reward. Credit assignment is an important problem studied in the global reward game. Most of previous works stood by the view of non-cooperative-game theoretical framework with the shared reward approach, i.e., each agent being assigned a shared global reward directly. This, however, may give each agent an inaccurate reward on its contribution to the group, which could cause inefficient learning. To deal with this problem, we i) introduce a cooperative-game theoretical framework called extended convex game (ECG) that is a superset of global reward game, and ii) propose a local reward approach called Shapley Q-value. Shapley Q-value is able to distribute the global reward, reflecting each agent's own contribution in contrast to the shared reward approach. Moreover, we derive an MARL algorithm called Shapley Q-value deep deterministic policy gradient (SQDDPG), using Shapley Q-value as the critic for each agent. We evaluate SQDDPG on Cooperative Navigation, Prey-and-Predator and Traffic Junction, compared with the state-of-the-art algorithms, e.g., MADDPG, COMA, Independent DDPG and Independent A2C. In the experiments, SQDDPG shows a significant improvement on the convergence rate. Finally, we plot Shapley Q-value and validate the property of fair credit assignment.


翻译:合作游戏是多试剂强化学习(MARL)中的一个关键研究领域。全球奖赏游戏是一个合作游戏的子类,所有代理商都致力于最大限度地提高全球奖赏。信用分配是全球奖赏游戏中研究的一个重要问题。以前的大部分作品都以非合作游戏理论框架的观点为基础,采用共享奖赏方法,即每个代理商直接获得共享全球奖赏。然而,这可能给每个代理商带来不准确的奖赏,使其对集团的贡献可能导致低效学习。为了解决这一问题,我们i)引入了一个合作游戏理论框架,称为扩展的康威游戏(ECG),这是全球奖赏游戏的超级组合,并且二)提出一个名为Shapley Q值的本地奖赏方法。Spley Qvalit能够分配全球奖赏,反映每个代理商自己对共享奖赏方法的贡献。此外,我们用沙佩利 QDPL(SQGDGG) 的精度、SDDDL 和SDGADL 的透明性、SDGLA、S-DLADL 和SDLAVAL 和SUDLADLA、S-DLA、S-DLADLA、S-DLADLA、SUD、S-S-DLA、S-DLADLADLADLA、S-S-S-S-GLA、S-S-DLA、S-DLA、S-GLA、S-S-DDLA、S-GLADLADLA、S-DLA、S、S、S、SDLADLA、S、S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-DGL-DLA、S-S-S-S-S-S-DAR-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-DL-S-S-S-S-D

0
下载
关闭预览

相关内容

深度强化学习策略梯度教程,53页ppt
专知会员服务
178+阅读 · 2020年2月1日
【干货51页PPT】深度学习理论理解探索
专知会员服务
60+阅读 · 2019年12月24日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
57+阅读 · 2019年10月17日
MIT新书《强化学习与最优控制》
专知会员服务
273+阅读 · 2019年10月9日
Hierarchically Structured Meta-learning
CreateAMind
24+阅读 · 2019年5月22日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
RL 真经
CreateAMind
5+阅读 · 2018年12月28日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Reinforcement Learning: An Introduction 2018第二版 500页
CreateAMind
11+阅读 · 2018年4月27日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Arxiv
0+阅读 · 2021年1月8日
Arxiv
3+阅读 · 2018年10月5日
Arxiv
5+阅读 · 2018年6月12日
VIP会员
相关VIP内容
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
24+阅读 · 2019年5月22日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
RL 真经
CreateAMind
5+阅读 · 2018年12月28日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Reinforcement Learning: An Introduction 2018第二版 500页
CreateAMind
11+阅读 · 2018年4月27日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Top
微信扫码咨询专知VIP会员