【NeurIPS2022】协作多智能体强化学习中个体全局最大值的再思考 - 专知

会员服务 ·

0

【NeurIPS2022】协作多智能体强化学习中个体全局最大值的再思考

2022 年 9 月 23 日 专知

在协同多智能体强化学习中，集中训练和分散执行(CTDE)取得了显著的成功。IGM (Individual Global Max)分解是CTDE的重要组成部分，用来衡量局部策略与联合策略之间的一致性。大多数基于IGM的研究关注于如何建立这种一致的关系，但很少关注检查IGM的潜在缺陷。在这项工作中，我们揭示了IGM条件是一个有损分解，并且有损分解的误差会在基于超网络的方法中积累。针对上述问题，本文提出采用模仿学习策略将有损分解与Bellman迭代分离，从而避免误差累积。在零视点的《星际争霸》多智能体挑战赛基准问题上，对所提策略进行了理论验证和实证验证。结果也证实了提出的方法优于最先进的基于IGM的方法。

https://www.zhuanzhi.ai/paper/acf4a4b734b3127ef7ad948ba9fdda23

专知便捷查看

便捷下载，请关注专知公众号（点击上方蓝色专知关注）

后台回复“CMAL” 就可以获取《【NeurIPS2022】协作多智能体强化学习中个体全局最大值的再思考》专知下载链接

专知，专业可信的人工智能知识分发 ，让认知协作更快更好！欢迎注册登录专知www.zhuanzhi.ai，获取100000+AI(AI与军事、医药、公安等)主题干货知识资料！

欢迎微信扫一扫加入专知人工智能知识星球群，获取最新AI专业干货知识教程资料和与专家交流咨询！

点击“ 阅读原文 ”，了解使用专知 ，查看获取100000+AI主题知识资料

登录查看更多

2

相关内容

多智能体强化学习

多智能体强化学习

【NeurIPS2022】解决持续学习问题的理论研究

【NeurIPS2022】解决持续学习问题的理论研究

专知会员服务

31+阅读 · 2022年11月7日

《分布式多智能体强化学习的编码》加州大学等

《分布式多智能体强化学习的编码》加州大学等

专知会员服务

55+阅读 · 2022年11月2日

【NeurIPS 2022】带有自适应节点采样的层次图Transformer

【NeurIPS 2022】带有自适应节点采样的层次图Transformer

专知会员服务

29+阅读 · 2022年10月11日

【NeurIPS2022】VICRegL:局部视觉特征的自监督学习

【NeurIPS2022】VICRegL:局部视觉特征的自监督学习

专知会员服务

32+阅读 · 2022年10月6日

【ICML2022】DRIBO:基于多视图信息瓶颈的鲁棒深度强化学习

【ICML2022】DRIBO:基于多视图信息瓶颈的鲁棒深度强化学习

专知会员服务

17+阅读 · 2022年8月13日

【NeurIPS 2021】设置多智能体策略梯度的方差

【NeurIPS 2021】设置多智能体策略梯度的方差

专知会员服务

21+阅读 · 2021年10月24日

【NeurIPS2021】黑箱学习算法的信息理论泛化界

专知会员服务

23+阅读 · 2021年10月6日

【CVPR2021】现实世界域泛化的自适应方法

【CVPR2021】现实世界域泛化的自适应方法

专知会员服务

58+阅读 · 2021年3月31日

【NeurIPS2020】图神经网络中的池化再思考

【NeurIPS2020】图神经网络中的池化再思考

专知会员服务

52+阅读 · 2020年10月25日

【CVPR2020】我们能用强化学习来学习图模型推断的启发规则吗?

专知会员服务

43+阅读 · 2020年5月5日

【NeurIPS2022】可解释机器学习的安全性:一种最大偏差方法

【NeurIPS2022】可解释机器学习的安全性:一种最大偏差方法

专知

2+阅读 · 2022年11月8日

【NeurIPS2022】解决持续学习问题的理论研究

【NeurIPS2022】解决持续学习问题的理论研究

专知

2+阅读 · 2022年11月7日

如何确保强化学习可靠？苏黎世联邦理工Turchetta, Matteo博士论文《强化学习中的安全性和鲁棒性》，218页pdf

如何确保强化学习可靠？苏黎世联邦理工Turchetta, Matteo博士论文《强化学习中的安全性和鲁棒性》，218页pdf

专知

9+阅读 · 2022年10月25日

【NeurIPS2022】分布式自适应元强化学习

【NeurIPS2022】分布式自适应元强化学习

专知

3+阅读 · 2022年10月8日

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

专知

10+阅读 · 2022年10月6日

【ICML2022】DRIBO:基于多视图信息瓶颈的鲁棒深度强化学习

【ICML2022】DRIBO:基于多视图信息瓶颈的鲁棒深度强化学习

专知

0+阅读 · 2022年8月13日

【ICML2022】基于少样本策略泛化的决策Transformer

【ICML2022】基于少样本策略泛化的决策Transformer

专知

3+阅读 · 2022年7月11日

【ICRA2022】机器人强化学习工具教程, 附slides与视频

【ICRA2022】机器人强化学习工具教程, 附slides与视频

专知

2+阅读 · 2022年5月27日

【CVPR2022】视频对比学习的概率表示

【CVPR2022】视频对比学习的概率表示

专知

1+阅读 · 2022年4月12日

【NeurIPS2021】学习用于分布外预测的因果语义表示

【NeurIPS2021】学习用于分布外预测的因果语义表示

专知

1+阅读 · 2021年11月19日

负面在线评论和商家反馈对消费者个体态度和群体观点演化的影响研究

国家自然科学基金

0+阅读 · 2014年12月31日

面孔知觉学习的神经机制

国家自然科学基金

0+阅读 · 2013年12月31日

广义异质多智能体系统的协调输出一致研究

国家自然科学基金

1+阅读 · 2013年12月31日

听觉-发声系统整合的认知神经机制

国家自然科学基金

1+阅读 · 2012年12月31日

从个体到群落：社会系统中异质性的涌现与合作行为演化的动力学研究

国家自然科学基金

1+阅读 · 2012年12月31日

非期望效用与纳什均衡- - 基于行为决策理论视角

国家自然科学基金

4+阅读 · 2012年12月31日

具有竞争行为的公路合作运输决策研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于逻辑强化学习的深层网页增量信息获取方法研究

国家自然科学基金

0+阅读 · 2009年12月31日

具有模仿与强化学习机制的智能机器人

国家自然科学基金

2+阅读 · 2009年12月31日

基于动态分层与自学习的多智能体自适应协作模型

国家自然科学基金

17+阅读 · 2008年12月31日

On Instance-Dependent Bounds for Offline Reinforcement Learning with Linear Function Approximation

On Instance-Dependent Bounds for Offline Reinforcement Learning with Linear Function Approximation

Arxiv

0+阅读 · 2022年11月23日

Contrastive Identity-Aware Learning for Multi-Agent Value Decomposition

Arxiv

0+阅读 · 2022年11月23日

Network coevolution drives segregation and enhances Pareto optimal equilibrium selection in coordination games

Arxiv

0+阅读 · 2022年11月22日

Support Size Estimation: The Power of Conditioning

Arxiv

0+阅读 · 2022年11月22日

Personal Privacy Protection Problems in the Digital Age

Personal Privacy Protection Problems in the Digital Age

Arxiv

0+阅读 · 2022年11月20日

Convergence of the PCTL algorithm for solving the discretized 3T energy equations in RHD problems

Arxiv

0+阅读 · 2022年11月18日

Rot-Pro: Modeling Transitivity by Projection in Knowledge Graph Embedding

Arxiv

11+阅读 · 2021年10月27日

Decentralized and Communication-Free Multi-Robot Navigation through Distributed Games

Arxiv

40+阅读 · 2021年9月15日

Heterogeneous Noisy Short Signal Camouflage in Multi-Domain Environment Decision-Making

Arxiv

34+阅读 · 2021年6月2日

A Multi-Objective Deep Reinforcement Learning Framework

A Multi-Objective Deep Reinforcement Learning Framework

Arxiv

16+阅读 · 2018年6月27日

VIP会员

相关主题

多智能体强化学习

相关VIP内容

【NeurIPS2022】解决持续学习问题的理论研究

【NeurIPS2022】解决持续学习问题的理论研究

专知会员服务

31+阅读 · 2022年11月7日

《分布式多智能体强化学习的编码》加州大学等

《分布式多智能体强化学习的编码》加州大学等

专知会员服务

55+阅读 · 2022年11月2日

【NeurIPS 2022】带有自适应节点采样的层次图Transformer

【NeurIPS 2022】带有自适应节点采样的层次图Transformer

专知会员服务

29+阅读 · 2022年10月11日

【NeurIPS2022】VICRegL:局部视觉特征的自监督学习

【NeurIPS2022】VICRegL:局部视觉特征的自监督学习

专知会员服务

32+阅读 · 2022年10月6日

【ICML2022】DRIBO:基于多视图信息瓶颈的鲁棒深度强化学习

【ICML2022】DRIBO:基于多视图信息瓶颈的鲁棒深度强化学习

专知会员服务

17+阅读 · 2022年8月13日

【NeurIPS 2021】设置多智能体策略梯度的方差

【NeurIPS 2021】设置多智能体策略梯度的方差

专知会员服务

21+阅读 · 2021年10月24日

【NeurIPS2021】黑箱学习算法的信息理论泛化界

专知会员服务

23+阅读 · 2021年10月6日

【CVPR2021】现实世界域泛化的自适应方法

【CVPR2021】现实世界域泛化的自适应方法

专知会员服务

58+阅读 · 2021年3月31日

【NeurIPS2020】图神经网络中的池化再思考

【NeurIPS2020】图神经网络中的池化再思考

专知会员服务

52+阅读 · 2020年10月25日

【CVPR2020】我们能用强化学习来学习图模型推断的启发规则吗?

专知会员服务

43+阅读 · 2020年5月5日

热门VIP内容

开通专知VIP会员享更多权益服务

《美国海军陆战队软件定义网络应用案例：分布式防火墙自动化系统》148页

《多体环境下定位导航授时（PNT）系统研究》228页

软件定义无线电（SDR）：商业与军事领域的技术、应用及未来趋势

《攻势防空作战中无人追击者/规避者最优轨迹研究（含动态交战区建模）》95页

相关资讯

【NeurIPS2022】可解释机器学习的安全性:一种最大偏差方法

【NeurIPS2022】可解释机器学习的安全性:一种最大偏差方法

专知

2+阅读 · 2022年11月8日

【NeurIPS2022】解决持续学习问题的理论研究

【NeurIPS2022】解决持续学习问题的理论研究

专知

2+阅读 · 2022年11月7日

如何确保强化学习可靠？苏黎世联邦理工Turchetta, Matteo博士论文《强化学习中的安全性和鲁棒性》，218页pdf

如何确保强化学习可靠？苏黎世联邦理工Turchetta, Matteo博士论文《强化学习中的安全性和鲁棒性》，218页pdf

专知

9+阅读 · 2022年10月25日

【NeurIPS2022】分布式自适应元强化学习

【NeurIPS2022】分布式自适应元强化学习

专知

3+阅读 · 2022年10月8日

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

专知

10+阅读 · 2022年10月6日

【ICML2022】DRIBO:基于多视图信息瓶颈的鲁棒深度强化学习

【ICML2022】DRIBO:基于多视图信息瓶颈的鲁棒深度强化学习

专知

0+阅读 · 2022年8月13日

【ICML2022】基于少样本策略泛化的决策Transformer

【ICML2022】基于少样本策略泛化的决策Transformer

专知

3+阅读 · 2022年7月11日

【ICRA2022】机器人强化学习工具教程, 附slides与视频

【ICRA2022】机器人强化学习工具教程, 附slides与视频

专知

2+阅读 · 2022年5月27日

【CVPR2022】视频对比学习的概率表示

【CVPR2022】视频对比学习的概率表示

专知

1+阅读 · 2022年4月12日

【NeurIPS2021】学习用于分布外预测的因果语义表示

【NeurIPS2021】学习用于分布外预测的因果语义表示

专知

1+阅读 · 2021年11月19日

相关基金

负面在线评论和商家反馈对消费者个体态度和群体观点演化的影响研究

国家自然科学基金

0+阅读 · 2014年12月31日

面孔知觉学习的神经机制

国家自然科学基金

0+阅读 · 2013年12月31日

广义异质多智能体系统的协调输出一致研究

国家自然科学基金

1+阅读 · 2013年12月31日

听觉-发声系统整合的认知神经机制

国家自然科学基金

1+阅读 · 2012年12月31日

从个体到群落：社会系统中异质性的涌现与合作行为演化的动力学研究

国家自然科学基金

1+阅读 · 2012年12月31日

非期望效用与纳什均衡- - 基于行为决策理论视角

国家自然科学基金

4+阅读 · 2012年12月31日

具有竞争行为的公路合作运输决策研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于逻辑强化学习的深层网页增量信息获取方法研究

国家自然科学基金

0+阅读 · 2009年12月31日

具有模仿与强化学习机制的智能机器人

国家自然科学基金

2+阅读 · 2009年12月31日

基于动态分层与自学习的多智能体自适应协作模型

国家自然科学基金

17+阅读 · 2008年12月31日

相关论文

On Instance-Dependent Bounds for Offline Reinforcement Learning with Linear Function Approximation

On Instance-Dependent Bounds for Offline Reinforcement Learning with Linear Function Approximation

Arxiv

0+阅读 · 2022年11月23日

Contrastive Identity-Aware Learning for Multi-Agent Value Decomposition

Arxiv

0+阅读 · 2022年11月23日

Network coevolution drives segregation and enhances Pareto optimal equilibrium selection in coordination games

Arxiv

0+阅读 · 2022年11月22日

Support Size Estimation: The Power of Conditioning

Arxiv

0+阅读 · 2022年11月22日

Personal Privacy Protection Problems in the Digital Age

Personal Privacy Protection Problems in the Digital Age

Arxiv

0+阅读 · 2022年11月20日

Convergence of the PCTL algorithm for solving the discretized 3T energy equations in RHD problems

Arxiv

0+阅读 · 2022年11月18日

Rot-Pro: Modeling Transitivity by Projection in Knowledge Graph Embedding

Arxiv

11+阅读 · 2021年10月27日

Decentralized and Communication-Free Multi-Robot Navigation through Distributed Games

Arxiv

40+阅读 · 2021年9月15日

Heterogeneous Noisy Short Signal Camouflage in Multi-Domain Environment Decision-Making

Arxiv

34+阅读 · 2021年6月2日

A Multi-Objective Deep Reinforcement Learning Framework

A Multi-Objective Deep Reinforcement Learning Framework

Arxiv

16+阅读 · 2018年6月27日

大家都在搜

无人机集群

CMU博士论文

国防科技创新

OpenKG开源系列 | 海洋鱼类百科知识图谱（浙江大学）

微信扫码咨询专知VIP会员