【ICML2020-天津大学】多智能体深度强化学习中的Q值路径分解

2020 年 7 月 2 日 专知

多智能体深度强化学习中的Q值路径分解


Q-value Path Decomposition for Deep Multiagent Reinforcement Learning

作者:

杨耀东 郝建业 陈广勇 汤宏垚 陈赢峰 胡裕靖 范长杰 魏忠钰

简介:

近年来,由于许多现实世界中的问题可以建模为多智能体系统,因此多智能体深度强化学习(MARL)已成为一个非常活跃的研究领域。一类特别有趣且广泛适用的问题可以被抽象为部分可观察的合作式多智能体环境,在这种环境中,一组智能体根据自己的局部观察和共享的全局奖励信号来学习协调其行为。一种自然的解决方案是求助于集中式训练、分布式执行范式。在集中式训练期间,一项关键挑战是多智能体信度分配:如何为单个智能体的策略分配属于它自身的贡献,从而更好地协调以最大化全局奖励。在本文中,我们提出了一种称为Q值路径分解(QPD)的新方法,可以将系统的全局Q值分解为单个智能体的Q值。和以前的工作限制单个Q值和全局Q值的表示关系不同,我们将累积梯度归因技术运用到深度MARL中,沿着轨迹路径直接分解全局Q值来为智能体进行信度分配。我们在具有挑战性的《星际争霸II》微观管理任务上评估了QPD,表明其与现有的MARL算法相比,QPD在同质和异质的多智能体场景中均达到了先进的性能。

方法:

                           

  • 在集中式训练、分布式执行的范式下,智能体会依据自身的历史轨迹和当前观察选择执行动作与环境交互,使用集中式的critic网络学习基于智能体联合观察和动作的全局Q值函数。

  • 在获得当前轨迹后,通过累积梯度技术沿着状态动作轨迹将全局Q值归因到每个智能体的特征上,将属于每个智能体的特征的归因信度叠加作为当前状态下智能体的个体Q值信度。

  • 使用个体Q值信度作为底层智能体策略网络的监督信号对智能体策略进行训练。

 

效果:

该算法在挑战性的星际争霸游戏平台进行了测试,实验显示QPD能够在同质和异质场景中学习到协调的策略,取得先进的性能。

地址:

https://www.zhuanzhi.ai/paper/58224edb0d1daf4fc46ba395a22ce0eb


参考链接:

https://mp.weixin.qq.com/s/2SkwD1csLLw0icZ9Kzpcmg


专知便捷查看

便捷下载,请关注专知公众号(点击上方蓝色专知关注)

  • 后台回复“QPD” 可以获取《【ICML2020-天津大学】多智能体深度强化学习中的Q值路径分解》专知下载链接索引

专知,专业可信的人工智能知识分发,让认知协作更快更好!欢迎注册登录专知www.zhuanzhi.ai,获取5000+AI主题干货知识资料!
欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程资料和与专家交流咨询
欢迎扫一扫关注专知视频号,第一时间看人工智能最新精彩视频!

点击“阅读原文”,了解使用专知,查看获取5000+AI主题知识资源
登录查看更多
36

相关内容

【ICML2020】基于模型的强化学习方法教程,279页ppt
专知会员服务
127+阅读 · 2020年7月20日
【ICML2020】用于强化学习的对比无监督表示嵌入
专知会员服务
27+阅读 · 2020年7月6日
【ICML2020-浙江大学】对抗性互信息的文本生成
专知会员服务
43+阅读 · 2020年7月4日
多智能体深度强化学习的若干关键科学问题
专知会员服务
188+阅读 · 2020年5月24日
【综述】自动驾驶领域中的强化学习,附18页论文下载
专知会员服务
172+阅读 · 2020年2月8日
深度强化学习策略梯度教程,53页ppt
专知会员服务
178+阅读 · 2020年2月1日
专知会员服务
207+阅读 · 2019年8月30日
多智能体强化学习(MARL)近年研究概览
PaperWeekly
36+阅读 · 2020年3月15日
当深度强化学习遇见图神经网络
专知
224+阅读 · 2019年10月21日
RL解决'LunarLander-v2' (SOTA)
CreateAMind
62+阅读 · 2019年9月27日
17种深度强化学习算法用Pytorch实现
新智元
30+阅读 · 2019年9月16日
开源星际争霸2多智能体挑战smac
专知
17+阅读 · 2019年2月13日
深度强化学习简介
专知
30+阅读 · 2018年12月3日
OpenAI提出Reptile:可扩展的元学习算法
深度学习世界
7+阅读 · 2018年3月9日
Meta-Transfer Learning for Few-Shot Learning
Arxiv
8+阅读 · 2018年12月6日
Multi-task Deep Reinforcement Learning with PopArt
Arxiv
4+阅读 · 2018年9月12日
Arxiv
5+阅读 · 2018年6月12日
Arxiv
11+阅读 · 2018年4月25日
Arxiv
5+阅读 · 2018年4月22日
VIP会员
相关VIP内容
【ICML2020】基于模型的强化学习方法教程,279页ppt
专知会员服务
127+阅读 · 2020年7月20日
【ICML2020】用于强化学习的对比无监督表示嵌入
专知会员服务
27+阅读 · 2020年7月6日
【ICML2020-浙江大学】对抗性互信息的文本生成
专知会员服务
43+阅读 · 2020年7月4日
多智能体深度强化学习的若干关键科学问题
专知会员服务
188+阅读 · 2020年5月24日
【综述】自动驾驶领域中的强化学习,附18页论文下载
专知会员服务
172+阅读 · 2020年2月8日
深度强化学习策略梯度教程,53页ppt
专知会员服务
178+阅读 · 2020年2月1日
专知会员服务
207+阅读 · 2019年8月30日
相关资讯
多智能体强化学习(MARL)近年研究概览
PaperWeekly
36+阅读 · 2020年3月15日
当深度强化学习遇见图神经网络
专知
224+阅读 · 2019年10月21日
RL解决'LunarLander-v2' (SOTA)
CreateAMind
62+阅读 · 2019年9月27日
17种深度强化学习算法用Pytorch实现
新智元
30+阅读 · 2019年9月16日
开源星际争霸2多智能体挑战smac
专知
17+阅读 · 2019年2月13日
深度强化学习简介
专知
30+阅读 · 2018年12月3日
OpenAI提出Reptile:可扩展的元学习算法
深度学习世界
7+阅读 · 2018年3月9日
相关论文
Meta-Transfer Learning for Few-Shot Learning
Arxiv
8+阅读 · 2018年12月6日
Multi-task Deep Reinforcement Learning with PopArt
Arxiv
4+阅读 · 2018年9月12日
Arxiv
5+阅读 · 2018年6月12日
Arxiv
11+阅读 · 2018年4月25日
Arxiv
5+阅读 · 2018年4月22日
Top
微信扫码咨询专知VIP会员