【NeurIPS2022】协作多智能体强化学习中个体全局最大值的再思考 - 专知VIP

会员服务 ·

14

NeurIPS 2022 · 多智能体强化学习 ·

2022 年 9 月 23 日

【NeurIPS2022】协作多智能体强化学习中个体全局最大值的再思考

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

在协同多智能体强化学习中，集中训练和分散执行(CTDE)取得了显著的成功。IGM (Individual Global Max)分解是CTDE的重要组成部分，用来衡量局部策略与联合策略之间的一致性。大多数基于IGM的研究关注于如何建立这种一致的关系，但很少关注检查IGM的潜在缺陷。在这项工作中，我们揭示了IGM条件是一个有损分解，并且有损分解的误差会在基于超网络的方法中积累。针对上述问题，本文提出采用模仿学习策略将有损分解与Bellman迭代分离，从而避免误差累积。在零视点的《星际争霸》多智能体挑战赛基准问题上，对所提策略进行了理论验证和实证验证。结果也证实了提出的方法优于最先进的基于IGM的方法。https://www.zhuanzhi.ai/paper/acf4a4b734b3127ef7ad948ba9fdda23

成为VIP会员查看完整内容

36

相关内容

NeurIPS 2022

【NeurIPS2022】基于结构聚类的自监督异构图预训练

【NeurIPS2022】基于结构聚类的自监督异构图预训练

专知会员服务

24+阅读 · 2022年10月20日

【NeurIPS2022】SparCL:边缘稀疏持续学习

【NeurIPS2022】SparCL:边缘稀疏持续学习

专知会员服务

24+阅读 · 2022年9月22日

【NeurIPS2021】存在潜在变量和选择偏差的递归因果结构学习

【NeurIPS2021】存在潜在变量和选择偏差的递归因果结构学习

专知会员服务

22+阅读 · 2021年11月15日

「元学习」最新DSAA2021-Tutorial，附视频与83页ppt

「元学习」最新DSAA2021-Tutorial，附视频与83页ppt

专知会员服务

30+阅读 · 2021年10月20日

【KDD2021】基于因果反事实Shapley的MARL信度分配

专知会员服务

19+阅读 · 2021年7月11日

【ICML2021】协同对抗鲁棒的迁移学习

专知会员服务

25+阅读 · 2021年6月17日

【NeurIPS2020】图神经网络中的池化再思考

【NeurIPS2020】图神经网络中的池化再思考

专知会员服务

52+阅读 · 2020年10月25日

【ICML2020-天津大学】多智能体深度强化学习中的Q值路径分解

【ICML2020-天津大学】多智能体深度强化学习中的Q值路径分解

专知会员服务

81+阅读 · 2020年7月2日

【ICML2020-上海交大】多智能体确定性Q-Learning， Multi-Agent Determinantal Q-Learning

【ICML2020-上海交大】多智能体确定性Q-Learning， Multi-Agent Determinantal Q-Learning

专知会员服务

38+阅读 · 2020年6月3日

【CVPR2020】从领域适应的角度重新思考长尾视觉识别的类平衡方法

【CVPR2020】从领域适应的角度重新思考长尾视觉识别的类平衡方法

专知会员服务

24+阅读 · 2020年4月12日

【NeurIPS2022】基于结构聚类的自监督异构图预训练

【NeurIPS2022】基于结构聚类的自监督异构图预训练

专知

1+阅读 · 2022年10月20日

NeurIPS2022｜图对比学习的结构公平性初探

NeurIPS2022｜图对比学习的结构公平性初探

专知

0+阅读 · 2022年10月16日

【NeurIPS2022】SparCL:边缘稀疏持续学习

【NeurIPS2022】SparCL:边缘稀疏持续学习

专知

2+阅读 · 2022年9月22日

IJCAI2022《对抗序列决策》教程，164页ppt

IJCAI2022《对抗序列决策》教程，164页ppt

专知

4+阅读 · 2022年7月27日

基于模型的强化学习综述

基于模型的强化学习综述

专知

42+阅读 · 2022年7月13日

DeepMind提出强化学习新方法，可实现人机合作

DeepMind提出强化学习新方法，可实现人机合作

InfoQ

3+阅读 · 2021年12月20日

FAIR何恺明团队最新研究：定义ViT检测迁移学习基线

FAIR何恺明团队最新研究：定义ViT检测迁移学习基线

极市平台

0+阅读 · 2021年11月23日

【NeurIPS2021】学习用于分布外预测的因果语义表示

【NeurIPS2021】学习用于分布外预测的因果语义表示

专知

1+阅读 · 2021年11月19日

【ICML2020-天津大学】多智能体深度强化学习中的Q值路径分解

【ICML2020-天津大学】多智能体深度强化学习中的Q值路径分解

专知

37+阅读 · 2020年7月2日

近期必读的八篇【Meta-Learning（元学习）】相关论文和代码

近期必读的八篇【Meta-Learning（元学习）】相关论文和代码

专知

134+阅读 · 2019年9月15日

基于重要性采样的并行离策略强化学习方法研究

国家自然科学基金

23+阅读 · 2015年12月31日

判别式表观建模方法

国家自然科学基金

1+阅读 · 2014年12月31日

多任务学习的理论分析与应用

国家自然科学基金

6+阅读 · 2013年12月31日

基于多Agent的分散式网络免疫方法研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于群体智能的多无人机编队自主协调控制及验证

国家自然科学基金

20+阅读 · 2013年12月31日

合作竞争模式下异质多动态智能体系统群集行为与协调控制

国家自然科学基金

4+阅读 · 2013年12月31日

基于量化输出和信道通讯的系统辨识与状态估计

国家自然科学基金

0+阅读 · 2013年12月31日

混合动力电动汽车在线学习控制策略研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于响应灵敏度分析的结构损伤识别新方法及实验研究

国家自然科学基金

0+阅读 · 2011年12月31日

基于支持向量机的复杂连续系统强化学习控制研究

国家自然科学基金

11+阅读 · 2008年12月31日

FairVFL: A Fair Vertical Federated Learning Framework with Contrastive Adversarial Learning

Arxiv

0+阅读 · 2022年10月31日

On the Global Convergence Rates of Decentralized Softmax Gradient Play in Markov Potential Games

Arxiv

0+阅读 · 2022年10月29日

On the connection between Bregman divergence and value in regularized Markov decision processes

Arxiv

0+阅读 · 2022年10月28日

Multi-Agent Reinforcement Learning is a Sequence Modeling Problem

Arxiv

0+阅读 · 2022年10月28日

Doubly-Robust Estimation for Correcting Position-Bias in Click Feedback for Unbiased Learning to Rank

Arxiv

0+阅读 · 2022年10月27日

Online Learning with Radial Basis Function Networks

Arxiv

0+阅读 · 2022年10月27日

ERL-Re$^2$: Efficient Evolutionary Reinforcement Learning with Shared State Representation and Individual Policy Representation

Arxiv

1+阅读 · 2022年10月26日

Few-shot Learning with Noisy Labels

Arxiv

13+阅读 · 2022年4月12日

Learning to Propagate Labels: Transductive Propagation Network for Few-shot Learning

Arxiv

21+阅读 · 2018年12月25日

Multiagent Soft Q-Learning

Arxiv

11+阅读 · 2018年4月25日

VIP会员

相关主题

多智能体强化学习

相关VIP内容

【NeurIPS2022】基于结构聚类的自监督异构图预训练

【NeurIPS2022】基于结构聚类的自监督异构图预训练

专知会员服务

24+阅读 · 2022年10月20日

【NeurIPS2022】SparCL:边缘稀疏持续学习

【NeurIPS2022】SparCL:边缘稀疏持续学习

专知会员服务

24+阅读 · 2022年9月22日

【NeurIPS2021】存在潜在变量和选择偏差的递归因果结构学习

【NeurIPS2021】存在潜在变量和选择偏差的递归因果结构学习

专知会员服务

22+阅读 · 2021年11月15日

「元学习」最新DSAA2021-Tutorial，附视频与83页ppt

「元学习」最新DSAA2021-Tutorial，附视频与83页ppt

专知会员服务

30+阅读 · 2021年10月20日

【KDD2021】基于因果反事实Shapley的MARL信度分配

专知会员服务

19+阅读 · 2021年7月11日

【ICML2021】协同对抗鲁棒的迁移学习

专知会员服务

25+阅读 · 2021年6月17日

【NeurIPS2020】图神经网络中的池化再思考

【NeurIPS2020】图神经网络中的池化再思考

专知会员服务

52+阅读 · 2020年10月25日

【ICML2020-天津大学】多智能体深度强化学习中的Q值路径分解

【ICML2020-天津大学】多智能体深度强化学习中的Q值路径分解

专知会员服务

81+阅读 · 2020年7月2日

【ICML2020-上海交大】多智能体确定性Q-Learning， Multi-Agent Determinantal Q-Learning

【ICML2020-上海交大】多智能体确定性Q-Learning， Multi-Agent Determinantal Q-Learning

专知会员服务

38+阅读 · 2020年6月3日

【CVPR2020】从领域适应的角度重新思考长尾视觉识别的类平衡方法

【CVPR2020】从领域适应的角度重新思考长尾视觉识别的类平衡方法

专知会员服务

24+阅读 · 2020年4月12日

热门VIP内容

开通专知VIP会员享更多权益服务

操作系统智能体：基于多模态大模型（MLLM）的通用计算设备智能体综述

《美国太空军系统全生命周期建模、仿真与分析效能提升方案》最新84页报告

【博士论文】推进数据高效的深度学习：非参数 Transformer、主动测试与上下文学习

自主人工智能：未来战争是否将是自主化的？

相关资讯

【NeurIPS2022】基于结构聚类的自监督异构图预训练

【NeurIPS2022】基于结构聚类的自监督异构图预训练

专知

1+阅读 · 2022年10月20日

NeurIPS2022｜图对比学习的结构公平性初探

NeurIPS2022｜图对比学习的结构公平性初探

专知

0+阅读 · 2022年10月16日

【NeurIPS2022】SparCL:边缘稀疏持续学习

【NeurIPS2022】SparCL:边缘稀疏持续学习

专知

2+阅读 · 2022年9月22日

IJCAI2022《对抗序列决策》教程，164页ppt

IJCAI2022《对抗序列决策》教程，164页ppt

专知

4+阅读 · 2022年7月27日

基于模型的强化学习综述

基于模型的强化学习综述

专知

42+阅读 · 2022年7月13日

DeepMind提出强化学习新方法，可实现人机合作

DeepMind提出强化学习新方法，可实现人机合作

InfoQ

3+阅读 · 2021年12月20日

FAIR何恺明团队最新研究：定义ViT检测迁移学习基线

FAIR何恺明团队最新研究：定义ViT检测迁移学习基线

极市平台

0+阅读 · 2021年11月23日

【NeurIPS2021】学习用于分布外预测的因果语义表示

【NeurIPS2021】学习用于分布外预测的因果语义表示

专知

1+阅读 · 2021年11月19日

【ICML2020-天津大学】多智能体深度强化学习中的Q值路径分解

【ICML2020-天津大学】多智能体深度强化学习中的Q值路径分解

专知

37+阅读 · 2020年7月2日

近期必读的八篇【Meta-Learning（元学习）】相关论文和代码

近期必读的八篇【Meta-Learning（元学习）】相关论文和代码

专知

134+阅读 · 2019年9月15日

相关基金

基于重要性采样的并行离策略强化学习方法研究

国家自然科学基金

23+阅读 · 2015年12月31日

判别式表观建模方法

国家自然科学基金

1+阅读 · 2014年12月31日

多任务学习的理论分析与应用

国家自然科学基金

6+阅读 · 2013年12月31日

基于多Agent的分散式网络免疫方法研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于群体智能的多无人机编队自主协调控制及验证

国家自然科学基金

20+阅读 · 2013年12月31日

合作竞争模式下异质多动态智能体系统群集行为与协调控制

国家自然科学基金

4+阅读 · 2013年12月31日

基于量化输出和信道通讯的系统辨识与状态估计

国家自然科学基金

0+阅读 · 2013年12月31日

混合动力电动汽车在线学习控制策略研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于响应灵敏度分析的结构损伤识别新方法及实验研究

国家自然科学基金

0+阅读 · 2011年12月31日

基于支持向量机的复杂连续系统强化学习控制研究

国家自然科学基金

11+阅读 · 2008年12月31日

相关论文

FairVFL: A Fair Vertical Federated Learning Framework with Contrastive Adversarial Learning

Arxiv

0+阅读 · 2022年10月31日

On the Global Convergence Rates of Decentralized Softmax Gradient Play in Markov Potential Games

Arxiv

0+阅读 · 2022年10月29日

On the connection between Bregman divergence and value in regularized Markov decision processes

Arxiv

0+阅读 · 2022年10月28日

Multi-Agent Reinforcement Learning is a Sequence Modeling Problem

Arxiv

0+阅读 · 2022年10月28日

Doubly-Robust Estimation for Correcting Position-Bias in Click Feedback for Unbiased Learning to Rank

Arxiv

0+阅读 · 2022年10月27日

Online Learning with Radial Basis Function Networks

Arxiv

0+阅读 · 2022年10月27日

ERL-Re$^2$: Efficient Evolutionary Reinforcement Learning with Shared State Representation and Individual Policy Representation

Arxiv

1+阅读 · 2022年10月26日

Few-shot Learning with Noisy Labels

Arxiv

13+阅读 · 2022年4月12日

Learning to Propagate Labels: Transductive Propagation Network for Few-shot Learning

Arxiv

21+阅读 · 2018年12月25日

Multiagent Soft Q-Learning

Arxiv

11+阅读 · 2018年4月25日

微信扫码咨询专知VIP会员