Shapley Counterfactual Credits for Multi-Agent Reinforcement Learning

多智能体强化学习在网络路由,自动驾驶,机器人控制等方面得到的广泛的应用。在许多场景中,多个智能体需要相互合作来完成任务,而在每个时刻,环境只能反馈全局奖励(global reward)。在训练时,需要进行credit assignment,即将整体收益的估计值分配给各个独立的Agent,从而使得各个Agent能够合理的获得训练。目前的credit assignment分为隐式的方法和显式的方法,前者缺乏可解释性,而后者大多没有考虑agent之间的相互关系。本研究中,我们提出了一种使用Counterfactual Shapley Value来建模agent之间的相互关系的显式的方法。Shapley Value 源于合作博弈论,其基本思想是,先计算每个参与者在大联盟中所有子集的边际贡献,再对边际贡献进行加权平均来代表参与者的真实贡献。我们在研究中,首先提出了一种因果反事实Shapley Value的计算方法来衡量任意agent集合的输入与central critic输出的因果关系,即考虑该集合不存在时对模型性能的影响。基于此,我们计算每个agent对于central critic的contribution,并使用该contribution作为credits来对local agents进行训练。另一个问题是Shapley Value的计算复杂度是指数级别。为了提升训练效率,我们提出使用Monte Carlo采样来近似计算,从而将计算复杂度降低到线性级别。我们使用StarCraft II作为benchmark,在复杂的场景如3s5z和3s5z_vs_3s6z中的实验表明,我们的方法优于SOTA,从而说明了我们方法的优越性。【诺亚决策与推理团队和浙江大学计算机学院人工智能研究所联合研究成果】

https://www.zhuanzhi.ai/paper/06d0c35747b2ef6553c97056b1a69b24

成为VIP会员查看完整内容
17

相关内容

专知会员服务
18+阅读 · 2021年9月6日
专知会员服务
27+阅读 · 2021年8月20日
【CVPR2021】反事实的零次和开集识别
专知会员服务
25+阅读 · 2021年5月7日
【SIGIR2021】基于嵌入的增量式时序知识图谱补全框架
专知会员服务
58+阅读 · 2021年4月21日
专知会员服务
40+阅读 · 2021年1月9日
专知会员服务
19+阅读 · 2021年1月7日
【ICML2020】强化学习中基于模型的方法,279页ppt
专知会员服务
43+阅读 · 2020年10月26日
【NeurIPS 2020】基于因果干预的小样本学习
专知会员服务
66+阅读 · 2020年10月6日
NLG任务评价指标BLEU与ROUGE
AINLP
20+阅读 · 2020年5月25日
论文浅尝 | AAAI2020 - 多分量图卷积协同过滤方法
开放知识图谱
4+阅读 · 2020年4月29日
论文浅尝 | ICLR2020 - 基于组合的多关系图卷积网络
开放知识图谱
21+阅读 · 2020年4月24日
“原子”因果常识图谱
AINLP
6+阅读 · 2019年12月26日
论文浅尝 | 基于属性嵌入的知识图谱间实体对齐方法
开放知识图谱
30+阅读 · 2019年3月26日
不对称多代理博弈中的博弈理论解读
AI前线
13+阅读 · 2018年3月8日
基于注意力机制的图卷积网络
科技创新与创业
73+阅读 · 2017年11月8日
Imitation by Predicting Observations
Arxiv
4+阅读 · 2021年7月8日
Meta-Learning to Cluster
Arxiv
17+阅读 · 2019年10月30日
VIP会员
相关VIP内容
专知会员服务
18+阅读 · 2021年9月6日
专知会员服务
27+阅读 · 2021年8月20日
【CVPR2021】反事实的零次和开集识别
专知会员服务
25+阅读 · 2021年5月7日
【SIGIR2021】基于嵌入的增量式时序知识图谱补全框架
专知会员服务
58+阅读 · 2021年4月21日
专知会员服务
40+阅读 · 2021年1月9日
专知会员服务
19+阅读 · 2021年1月7日
【ICML2020】强化学习中基于模型的方法,279页ppt
专知会员服务
43+阅读 · 2020年10月26日
【NeurIPS 2020】基于因果干预的小样本学习
专知会员服务
66+阅读 · 2020年10月6日
相关资讯
NLG任务评价指标BLEU与ROUGE
AINLP
20+阅读 · 2020年5月25日
论文浅尝 | AAAI2020 - 多分量图卷积协同过滤方法
开放知识图谱
4+阅读 · 2020年4月29日
论文浅尝 | ICLR2020 - 基于组合的多关系图卷积网络
开放知识图谱
21+阅读 · 2020年4月24日
“原子”因果常识图谱
AINLP
6+阅读 · 2019年12月26日
论文浅尝 | 基于属性嵌入的知识图谱间实体对齐方法
开放知识图谱
30+阅读 · 2019年3月26日
不对称多代理博弈中的博弈理论解读
AI前线
13+阅读 · 2018年3月8日
基于注意力机制的图卷积网络
科技创新与创业
73+阅读 · 2017年11月8日
微信扫码咨询专知VIP会员