【KDD2021】基于因果反事实Shapley的MARL信度分配 - 专知VIP

会员服务 ·

1

KDD 2021 · 反事实 · 多智能体系统 · 强化学习 ·

2021 年 7 月 11 日

【KDD2021】基于因果反事实Shapley的MARL信度分配

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

Shapley Counterfactual Credits for Multi-Agent Reinforcement Learning

多智能体强化学习在网络路由，自动驾驶，机器人控制等方面得到的广泛的应用。在许多场景中，多个智能体需要相互合作来完成任务，而在每个时刻，环境只能反馈全局奖励（global reward）。在训练时，需要进行credit assignment，即将整体收益的估计值分配给各个独立的Agent，从而使得各个Agent能够合理的获得训练。目前的credit assignment分为隐式的方法和显式的方法，前者缺乏可解释性，而后者大多没有考虑agent之间的相互关系。本研究中，我们提出了一种使用Counterfactual Shapley Value来建模agent之间的相互关系的显式的方法。Shapley Value 源于合作博弈论，其基本思想是，先计算每个参与者在大联盟中所有子集的边际贡献，再对边际贡献进行加权平均来代表参与者的真实贡献。我们在研究中，首先提出了一种因果反事实Shapley Value的计算方法来衡量任意agent集合的输入与central critic输出的因果关系，即考虑该集合不存在时对模型性能的影响。基于此，我们计算每个agent对于central critic的contribution，并使用该contribution作为credits来对local agents进行训练。另一个问题是Shapley Value的计算复杂度是指数级别。为了提升训练效率，我们提出使用Monte Carlo采样来近似计算，从而将计算复杂度降低到线性级别。我们使用StarCraft II作为benchmark，在复杂的场景如3s5z和3s5z_vs_3s6z中的实验表明，我们的方法优于SOTA，从而说明了我们方法的优越性。【诺亚决策与推理团队和浙江大学计算机学院人工智能研究所联合研究成果】

https://www.zhuanzhi.ai/paper/06d0c35747b2ef6553c97056b1a69b24

成为VIP会员查看完整内容

19

相关内容

KDD 2021

【KDD2021】部分对齐图卷积网络的跨网络学习

专知会员服务

19+阅读 · 2021年9月6日

[KDD2021]基于 TRA 和最优运输学习多种股票交易模式

专知会员服务

30+阅读 · 2021年8月20日

【KDD2021】基于多智能体协同竞价博弈的电商搜索广告多目标竞价优化

专知会员服务

35+阅读 · 2021年6月14日

【CVPR2021】反事实的零次和开集识别

【CVPR2021】反事实的零次和开集识别

专知会员服务

26+阅读 · 2021年5月7日

【SIGIR2021】基于嵌入的增量式时序知识图谱补全框架

【SIGIR2021】基于嵌入的增量式时序知识图谱补全框架

专知会员服务

63+阅读 · 2021年4月21日

【AAAI2021】图神经网路自监督预训练策略

专知会员服务

41+阅读 · 2021年1月9日

KDD20 | 基于差分变量去相关的稳定学习

专知会员服务

20+阅读 · 2021年1月7日

【ICML2020】强化学习中基于模型的方法，279页ppt

【ICML2020】强化学习中基于模型的方法，279页ppt

专知会员服务

47+阅读 · 2020年10月26日

【NeurIPS 2020】基于因果干预的小样本学习

【NeurIPS 2020】基于因果干预的小样本学习

专知会员服务

70+阅读 · 2020年10月6日

【ICML2020】基于图感知逻辑回归和抢占式查询候选集生成的属性图上主动学习策略

【ICML2020】基于图感知逻辑回归和抢占式查询候选集生成的属性图上主动学习策略

专知会员服务

13+阅读 · 2020年7月9日

ACL20 如何使用选择机制提升自注意力网路能力？

ACL20 如何使用选择机制提升自注意力网路能力？

专知

5+阅读 · 2020年8月29日

NLG任务评价指标BLEU与ROUGE

NLG任务评价指标BLEU与ROUGE

AINLP

21+阅读 · 2020年5月25日

论文浅尝 | AAAI2020 - 多分量图卷积协同过滤方法

论文浅尝 | AAAI2020 - 多分量图卷积协同过滤方法

开放知识图谱

4+阅读 · 2020年4月29日

论文浅尝 | ICLR2020 - 基于组合的多关系图卷积网络

论文浅尝 | ICLR2020 - 基于组合的多关系图卷积网络

开放知识图谱

21+阅读 · 2020年4月24日

“原子”因果常识图谱

“原子”因果常识图谱

AINLP

6+阅读 · 2019年12月26日

ICML 2019 | 强化学习用于推荐系统，蚂蚁金服提出生成对抗用户模型

ICML 2019 | 强化学习用于推荐系统，蚂蚁金服提出生成对抗用户模型

机器之心

8+阅读 · 2019年6月4日

论文浅尝 | 基于属性嵌入的知识图谱间实体对齐方法

论文浅尝 | 基于属性嵌入的知识图谱间实体对齐方法

开放知识图谱

30+阅读 · 2019年3月26日

【强化学习】强化学习的应用场景、基本概念、数学模型和交易中的应用

【强化学习】强化学习的应用场景、基本概念、数学模型和交易中的应用

产业智能官

18+阅读 · 2019年1月1日

不对称多代理博弈中的博弈理论解读

不对称多代理博弈中的博弈理论解读

AI前线

14+阅读 · 2018年3月8日

基于注意力机制的图卷积网络

基于注意力机制的图卷积网络

科技创新与创业

73+阅读 · 2017年11月8日

TimeTraveler: Reinforcement Learning for Temporal Knowledge Graph Forecasting

Arxiv

0+阅读 · 2021年9月9日

Event-Based Communication in Multi-Agent Distributed Q-Learning

Arxiv

0+阅读 · 2021年9月9日

Desiderata for Representation Learning: A Causal Perspective

Arxiv

0+阅读 · 2021年9月8日

Learning to Communicate Using Counterfactual Reasoning

Arxiv

0+阅读 · 2021年9月8日

Challenges and Countermeasures for Adversarial Attacks on Deep Reinforcement Learning

Arxiv

0+阅读 · 2021年9月8日

On the Challenges of Evaluating Compositional Explanations in Multi-Hop Inference: Relevance, Completeness, and Expert Ratings

Arxiv

0+阅读 · 2021年9月7日

Imitation by Predicting Observations

Imitation by Predicting Observations

Arxiv

4+阅读 · 2021年7月8日

Shapley Counterfactual Credits for Multi-Agent Reinforcement Learning

Arxiv

7+阅读 · 2021年6月22日

Informer: Beyond Efficient Transformer for Long Sequence Time-Series Forecasting

Informer: Beyond Efficient Transformer for Long Sequence Time-Series Forecasting

Arxiv

21+阅读 · 2020年12月17日

Meta-Learning to Cluster

Meta-Learning to Cluster

Arxiv

17+阅读 · 2019年10月30日

VIP会员

相关主题

多智能体系统

相关VIP内容

【KDD2021】部分对齐图卷积网络的跨网络学习

专知会员服务

19+阅读 · 2021年9月6日

[KDD2021]基于 TRA 和最优运输学习多种股票交易模式

专知会员服务

30+阅读 · 2021年8月20日

【KDD2021】基于多智能体协同竞价博弈的电商搜索广告多目标竞价优化

专知会员服务

35+阅读 · 2021年6月14日

【CVPR2021】反事实的零次和开集识别

【CVPR2021】反事实的零次和开集识别

专知会员服务

26+阅读 · 2021年5月7日

【SIGIR2021】基于嵌入的增量式时序知识图谱补全框架

【SIGIR2021】基于嵌入的增量式时序知识图谱补全框架

专知会员服务

63+阅读 · 2021年4月21日

【AAAI2021】图神经网路自监督预训练策略

专知会员服务

41+阅读 · 2021年1月9日

KDD20 | 基于差分变量去相关的稳定学习

专知会员服务

20+阅读 · 2021年1月7日

【ICML2020】强化学习中基于模型的方法，279页ppt

【ICML2020】强化学习中基于模型的方法，279页ppt

专知会员服务

47+阅读 · 2020年10月26日

【NeurIPS 2020】基于因果干预的小样本学习

【NeurIPS 2020】基于因果干预的小样本学习

专知会员服务

70+阅读 · 2020年10月6日

【ICML2020】基于图感知逻辑回归和抢占式查询候选集生成的属性图上主动学习策略

【ICML2020】基于图感知逻辑回归和抢占式查询候选集生成的属性图上主动学习策略

专知会员服务

13+阅读 · 2020年7月9日

热门VIP内容

开通专知VIP会员享更多权益服务

《美陆军徒步机动作战条令手册》最新168页

【博士论文】基于不确定性的可靠性：现代机器学习中的选择性预测与可信部署

军事后勤数字化未来展望

《美海军后勤体系整合与创新挑战》最新报告

相关资讯

ACL20 如何使用选择机制提升自注意力网路能力？

ACL20 如何使用选择机制提升自注意力网路能力？

专知

5+阅读 · 2020年8月29日

NLG任务评价指标BLEU与ROUGE

NLG任务评价指标BLEU与ROUGE

AINLP

21+阅读 · 2020年5月25日

论文浅尝 | AAAI2020 - 多分量图卷积协同过滤方法

论文浅尝 | AAAI2020 - 多分量图卷积协同过滤方法

开放知识图谱

4+阅读 · 2020年4月29日

论文浅尝 | ICLR2020 - 基于组合的多关系图卷积网络

论文浅尝 | ICLR2020 - 基于组合的多关系图卷积网络

开放知识图谱

21+阅读 · 2020年4月24日

“原子”因果常识图谱

“原子”因果常识图谱

AINLP

6+阅读 · 2019年12月26日

ICML 2019 | 强化学习用于推荐系统，蚂蚁金服提出生成对抗用户模型

ICML 2019 | 强化学习用于推荐系统，蚂蚁金服提出生成对抗用户模型

机器之心

8+阅读 · 2019年6月4日

论文浅尝 | 基于属性嵌入的知识图谱间实体对齐方法

论文浅尝 | 基于属性嵌入的知识图谱间实体对齐方法

开放知识图谱

30+阅读 · 2019年3月26日

【强化学习】强化学习的应用场景、基本概念、数学模型和交易中的应用

【强化学习】强化学习的应用场景、基本概念、数学模型和交易中的应用

产业智能官

18+阅读 · 2019年1月1日

不对称多代理博弈中的博弈理论解读

不对称多代理博弈中的博弈理论解读

AI前线

14+阅读 · 2018年3月8日

基于注意力机制的图卷积网络

基于注意力机制的图卷积网络

科技创新与创业

73+阅读 · 2017年11月8日

相关论文

TimeTraveler: Reinforcement Learning for Temporal Knowledge Graph Forecasting

Arxiv

0+阅读 · 2021年9月9日

Event-Based Communication in Multi-Agent Distributed Q-Learning

Arxiv

0+阅读 · 2021年9月9日

Desiderata for Representation Learning: A Causal Perspective

Arxiv

0+阅读 · 2021年9月8日

Learning to Communicate Using Counterfactual Reasoning

Arxiv

0+阅读 · 2021年9月8日

Challenges and Countermeasures for Adversarial Attacks on Deep Reinforcement Learning

Arxiv

0+阅读 · 2021年9月8日

On the Challenges of Evaluating Compositional Explanations in Multi-Hop Inference: Relevance, Completeness, and Expert Ratings

Arxiv

0+阅读 · 2021年9月7日

Imitation by Predicting Observations

Imitation by Predicting Observations

Arxiv

4+阅读 · 2021年7月8日

Shapley Counterfactual Credits for Multi-Agent Reinforcement Learning

Arxiv

7+阅读 · 2021年6月22日

Informer: Beyond Efficient Transformer for Long Sequence Time-Series Forecasting

Informer: Beyond Efficient Transformer for Long Sequence Time-Series Forecasting

Arxiv

21+阅读 · 2020年12月17日

Meta-Learning to Cluster

Meta-Learning to Cluster

Arxiv

17+阅读 · 2019年10月30日

微信扫码咨询专知VIP会员