【ICML2020-天津大学】多智能体深度强化学习中的Q值路径分解 - 专知

会员服务 ·

0

【ICML2020-天津大学】多智能体深度强化学习中的Q值路径分解

2020 年 7 月 2 日 专知

多智能体深度强化学习中的Q值路径分解

Q-value Path Decomposition for Deep Multiagent Reinforcement Learning

作者：

杨耀东郝建业陈广勇汤宏垚陈赢峰胡裕靖范长杰魏忠钰

简介：

近年来，由于许多现实世界中的问题可以建模为多智能体系统，因此多智能体深度强化学习（MARL）已成为一个非常活跃的研究领域。一类特别有趣且广泛适用的问题可以被抽象为部分可观察的合作式多智能体环境，在这种环境中，一组智能体根据自己的局部观察和共享的全局奖励信号来学习协调其行为。一种自然的解决方案是求助于集中式训练、分布式执行范式。在集中式训练期间，一项关键挑战是多智能体信度分配：如何为单个智能体的策略分配属于它自身的贡献，从而更好地协调以最大化全局奖励。在本文中，我们提出了一种称为Q值路径分解（QPD）的新方法，可以将系统的全局Q值分解为单个智能体的Q值。和以前的工作限制单个Q值和全局Q值的表示关系不同，我们将累积梯度归因技术运用到深度MARL中，沿着轨迹路径直接分解全局Q值来为智能体进行信度分配。我们在具有挑战性的《星际争霸II》微观管理任务上评估了QPD，表明其与现有的MARL算法相比，QPD在同质和异质的多智能体场景中均达到了先进的性能。

方法：

在集中式训练、分布式执行的范式下，智能体会依据自身的历史轨迹和当前观察选择执行动作与环境交互，使用集中式的critic网络学习基于智能体联合观察和动作的全局Q值函数。
在获得当前轨迹后，通过累积梯度技术沿着状态动作轨迹将全局Q值归因到每个智能体的特征上，将属于每个智能体的特征的归因信度叠加作为当前状态下智能体的个体Q值信度。
使用个体Q值信度作为底层智能体策略网络的监督信号对智能体策略进行训练。

效果：

该算法在挑战性的星际争霸游戏平台进行了测试，实验显示QPD能够在同质和异质场景中学习到协调的策略，取得先进的性能。

地址：

https://www.zhuanzhi.ai/paper/58224edb0d1daf4fc46ba395a22ce0eb

参考链接：

https://mp.weixin.qq.com/s/2SkwD1csLLw0icZ9Kzpcmg

专知便捷查看

便捷下载，请关注专知公众号（点击上方蓝色专知关注）

后台回复“QPD” 可以获取《【ICML2020-天津大学】多智能体深度强化学习中的Q值路径分解》专知下载链接索引

专知，专业可信的人工智能知识分发，让认知协作更快更好！欢迎注册登录专知www.zhuanzhi.ai，获取5000+AI主题干货知识资料！

欢迎微信扫一扫加入专知人工智能知识星球群，获取最新AI专业干货知识教程资料和与专家交流咨询！

欢迎扫一扫关注专知视频号，第一时间看人工智能最新精彩视频！

点击“阅读原文”，了解使用专知，查看获取5000+AI主题知识资源

登录查看更多

37

相关内容

多智能体

【ICML2020】基于模型的强化学习方法教程，279页ppt

【ICML2020】基于模型的强化学习方法教程，279页ppt

专知会员服务

129+阅读 · 2020年7月20日

【ICML2020-伯克利】稳定非策略强化学习的表示，Representations for Stable Off-Policy Reinforcement Learning

【ICML2020-伯克利】稳定非策略强化学习的表示，Representations for Stable Off-Policy Reinforcement Learning

专知会员服务

17+阅读 · 2020年7月14日

【ICML2020】用于强化学习的对比无监督表示嵌入

【ICML2020】用于强化学习的对比无监督表示嵌入

专知会员服务

28+阅读 · 2020年7月6日

【ICML2020-浙江大学】对抗性互信息的文本生成

【ICML2020-浙江大学】对抗性互信息的文本生成

专知会员服务

44+阅读 · 2020年7月4日

【ICML2020-上海交大】多智能体确定性Q-Learning， Multi-Agent Determinantal Q-Learning

【ICML2020-上海交大】多智能体确定性Q-Learning， Multi-Agent Determinantal Q-Learning

专知会员服务

38+阅读 · 2020年6月3日

多智能体深度强化学习的若干关键科学问题

多智能体深度强化学习的若干关键科学问题

专知会员服务

193+阅读 · 2020年5月24日

【综述】自动驾驶领域中的强化学习，附18页论文下载

【综述】自动驾驶领域中的强化学习，附18页论文下载

专知会员服务

176+阅读 · 2020年2月8日

深度强化学习策略梯度教程，53页ppt

深度强化学习策略梯度教程，53页ppt

专知会员服务

184+阅读 · 2020年2月1日

【伯克利Pieter Abbeel教授报告@CMU】元学习与深度强化学习的机器人应用，84页ppt

【伯克利Pieter Abbeel教授报告@CMU】元学习与深度强化学习的机器人应用，84页ppt

专知会员服务

34+阅读 · 2019年11月26日

【综述】多智能体深度强化学习综述，附49页PDF

专知会员服务

213+阅读 · 2019年8月30日

多智能体强化学习（MARL）近年研究概览

多智能体强化学习（MARL）近年研究概览

PaperWeekly

37+阅读 · 2020年3月15日

当深度强化学习遇见图神经网络

当深度强化学习遇见图神经网络

专知

227+阅读 · 2019年10月21日

【伯克利Pieter Abbeel教授报告@CMU】元学习与深度强化学习的机器人应用，84页ppt

【伯克利Pieter Abbeel教授报告@CMU】元学习与深度强化学习的机器人应用，84页ppt

专知

13+阅读 · 2019年10月12日

RL解决'LunarLander-v2' (SOTA)

RL解决'LunarLander-v2' (SOTA)

CreateAMind

62+阅读 · 2019年9月27日

17种深度强化学习算法用Pytorch实现

17种深度强化学习算法用Pytorch实现

新智元

31+阅读 · 2019年9月16日

DeepMind综述深度强化学习中的快与慢，智能体应该像人一样学习

DeepMind综述深度强化学习中的快与慢，智能体应该像人一样学习

机器之心

20+阅读 · 2019年5月3日

开源星际争霸2多智能体挑战smac

开源星际争霸2多智能体挑战smac

专知

17+阅读 · 2019年2月13日

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

机器之心

17+阅读 · 2019年2月11日

深度强化学习简介

深度强化学习简介

专知

30+阅读 · 2018年12月3日

OpenAI提出Reptile：可扩展的元学习算法

OpenAI提出Reptile：可扩展的元学习算法

深度学习世界

7+阅读 · 2018年3月9日

Q-value Path Decomposition for Deep Multiagent Reinforcement Learning

Q-value Path Decomposition for Deep Multiagent Reinforcement Learning

Arxiv

26+阅读 · 2020年2月10日

MedGCN: Graph Convolutional Networks for Multiple Medical Tasks

Arxiv

8+阅读 · 2019年3月31日

Multi-Task Feature Learning for Knowledge Graph Enhanced Recommendation

Arxiv

15+阅读 · 2019年1月23日

Meta-Transfer Learning for Few-Shot Learning

Meta-Transfer Learning for Few-Shot Learning

Arxiv

8+阅读 · 2018年12月6日

Reward learning from human preferences and demonstrations in Atari

Arxiv

8+阅读 · 2018年11月15日

Multi-task Deep Reinforcement Learning with PopArt

Multi-task Deep Reinforcement Learning with PopArt

Arxiv

4+阅读 · 2018年9月12日

Bipedal Walking Robot using Deep Deterministic Policy Gradient

Bipedal Walking Robot using Deep Deterministic Policy Gradient

Arxiv

3+阅读 · 2018年7月16日

Mean Field Multi-Agent Reinforcement Learning

Arxiv

5+阅读 · 2018年6月12日

Multiagent Soft Q-Learning

Arxiv

11+阅读 · 2018年4月25日

Logically-Constrained Reinforcement Learning

Arxiv

5+阅读 · 2018年4月22日

VIP会员

相关主题

深度强化学习

相关VIP内容

【ICML2020】基于模型的强化学习方法教程，279页ppt

【ICML2020】基于模型的强化学习方法教程，279页ppt

专知会员服务

129+阅读 · 2020年7月20日

【ICML2020-伯克利】稳定非策略强化学习的表示，Representations for Stable Off-Policy Reinforcement Learning

【ICML2020-伯克利】稳定非策略强化学习的表示，Representations for Stable Off-Policy Reinforcement Learning

专知会员服务

17+阅读 · 2020年7月14日

【ICML2020】用于强化学习的对比无监督表示嵌入

【ICML2020】用于强化学习的对比无监督表示嵌入

专知会员服务

28+阅读 · 2020年7月6日

【ICML2020-浙江大学】对抗性互信息的文本生成

【ICML2020-浙江大学】对抗性互信息的文本生成

专知会员服务

44+阅读 · 2020年7月4日

【ICML2020-上海交大】多智能体确定性Q-Learning， Multi-Agent Determinantal Q-Learning

【ICML2020-上海交大】多智能体确定性Q-Learning， Multi-Agent Determinantal Q-Learning

专知会员服务

38+阅读 · 2020年6月3日

多智能体深度强化学习的若干关键科学问题

多智能体深度强化学习的若干关键科学问题

专知会员服务

193+阅读 · 2020年5月24日

【综述】自动驾驶领域中的强化学习，附18页论文下载

【综述】自动驾驶领域中的强化学习，附18页论文下载

专知会员服务

176+阅读 · 2020年2月8日

深度强化学习策略梯度教程，53页ppt

深度强化学习策略梯度教程，53页ppt

专知会员服务

184+阅读 · 2020年2月1日

【伯克利Pieter Abbeel教授报告@CMU】元学习与深度强化学习的机器人应用，84页ppt

【伯克利Pieter Abbeel教授报告@CMU】元学习与深度强化学习的机器人应用，84页ppt

专知会员服务

34+阅读 · 2019年11月26日

【综述】多智能体深度强化学习综述，附49页PDF

专知会员服务

213+阅读 · 2019年8月30日

热门VIP内容

开通专知VIP会员享更多权益服务

《乌克兰无人机产业：志愿者与政策在构建新兴无人机产业中的协同作用》最新报告

《人工智能辅助决策中的数据可视化：系统性综述》

人工智能驱动弹药制造现代化：美国陆军转型之路

《敏捷作战部署中枢纽-辐条基地选址优化研究》80页

相关资讯

多智能体强化学习（MARL）近年研究概览

多智能体强化学习（MARL）近年研究概览

PaperWeekly

37+阅读 · 2020年3月15日

当深度强化学习遇见图神经网络

当深度强化学习遇见图神经网络

专知

227+阅读 · 2019年10月21日

【伯克利Pieter Abbeel教授报告@CMU】元学习与深度强化学习的机器人应用，84页ppt

【伯克利Pieter Abbeel教授报告@CMU】元学习与深度强化学习的机器人应用，84页ppt

专知

13+阅读 · 2019年10月12日

RL解决'LunarLander-v2' (SOTA)

RL解决'LunarLander-v2' (SOTA)

CreateAMind

62+阅读 · 2019年9月27日

17种深度强化学习算法用Pytorch实现

17种深度强化学习算法用Pytorch实现

新智元

31+阅读 · 2019年9月16日

DeepMind综述深度强化学习中的快与慢，智能体应该像人一样学习

DeepMind综述深度强化学习中的快与慢，智能体应该像人一样学习

机器之心

20+阅读 · 2019年5月3日

开源星际争霸2多智能体挑战smac

开源星际争霸2多智能体挑战smac

专知

17+阅读 · 2019年2月13日

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

机器之心

17+阅读 · 2019年2月11日

深度强化学习简介

深度强化学习简介

专知

30+阅读 · 2018年12月3日

OpenAI提出Reptile：可扩展的元学习算法

OpenAI提出Reptile：可扩展的元学习算法

深度学习世界

7+阅读 · 2018年3月9日

相关论文

Q-value Path Decomposition for Deep Multiagent Reinforcement Learning

Q-value Path Decomposition for Deep Multiagent Reinforcement Learning

Arxiv

26+阅读 · 2020年2月10日

MedGCN: Graph Convolutional Networks for Multiple Medical Tasks

Arxiv

8+阅读 · 2019年3月31日

Multi-Task Feature Learning for Knowledge Graph Enhanced Recommendation

Arxiv

15+阅读 · 2019年1月23日

Meta-Transfer Learning for Few-Shot Learning

Meta-Transfer Learning for Few-Shot Learning

Arxiv

8+阅读 · 2018年12月6日

Reward learning from human preferences and demonstrations in Atari

Arxiv

8+阅读 · 2018年11月15日

Multi-task Deep Reinforcement Learning with PopArt

Multi-task Deep Reinforcement Learning with PopArt

Arxiv

4+阅读 · 2018年9月12日

Bipedal Walking Robot using Deep Deterministic Policy Gradient

Bipedal Walking Robot using Deep Deterministic Policy Gradient

Arxiv

3+阅读 · 2018年7月16日

Mean Field Multi-Agent Reinforcement Learning

Arxiv

5+阅读 · 2018年6月12日

Multiagent Soft Q-Learning

Arxiv

11+阅读 · 2018年4月25日

Logically-Constrained Reinforcement Learning

Arxiv

5+阅读 · 2018年4月22日

大家都在搜

CMU博士论文

无人机集群

久别重逢话双塔

国防科技创新

无人机航拍交通事故现场勘查处置系统——行业第一的警用事故处理软件

微信扫码咨询专知VIP会员