在协同多智能体强化学习中,集中训练和分散执行(CTDE)取得了显著的成功。IGM (Individual Global Max)分解是CTDE的重要组成部分,用来衡量局部策略与联合策略之间的一致性。大多数基于IGM的研究关注于如何建立这种一致的关系,但很少关注检查IGM的潜在缺陷。在这项工作中,我们揭示了IGM条件是一个有损分解,并且有损分解的误差会在基于超网络的方法中积累。针对上述问题,本文提出采用模仿学习策略将有损分解与Bellman迭代分离,从而避免误差累积。在零视点的《星际争霸》多智能体挑战赛基准问题上,对所提策略进行了理论验证和实证验证。结果也证实了提出的方法优于最先进的基于IGM的方法。https://www.zhuanzhi.ai/paper/acf4a4b734b3127ef7ad948ba9fdda23

成为VIP会员查看完整内容
35

相关内容

【NeurIPS2022】基于结构聚类的自监督异构图预训练
专知会员服务
23+阅读 · 2022年10月20日
【NeurIPS2022】SparCL:边缘稀疏持续学习
专知会员服务
23+阅读 · 2022年9月22日
「元学习」最新DSAA2021-Tutorial,附视频与83页ppt
专知会员服务
29+阅读 · 2021年10月20日
专知会员服务
18+阅读 · 2021年7月11日
专知会员服务
24+阅读 · 2021年6月17日
【NeurIPS2020】图神经网络中的池化再思考
专知会员服务
51+阅读 · 2020年10月25日
NeurIPS2022|图对比学习的结构公平性初探
专知
0+阅读 · 2022年10月16日
【NeurIPS2022】SparCL:边缘稀疏持续学习
专知
2+阅读 · 2022年9月22日
IJCAI2022《对抗序列决策》教程,164页ppt
专知
4+阅读 · 2022年7月27日
基于模型的强化学习综述
专知
28+阅读 · 2022年7月13日
国家自然科学基金
20+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
20+阅读 · 2013年12月31日
国家自然科学基金
4+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
11+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2022年10月27日
Arxiv
12+阅读 · 2022年4月12日
Arxiv
11+阅读 · 2018年4月25日
VIP会员
相关VIP内容
【NeurIPS2022】基于结构聚类的自监督异构图预训练
专知会员服务
23+阅读 · 2022年10月20日
【NeurIPS2022】SparCL:边缘稀疏持续学习
专知会员服务
23+阅读 · 2022年9月22日
「元学习」最新DSAA2021-Tutorial,附视频与83页ppt
专知会员服务
29+阅读 · 2021年10月20日
专知会员服务
18+阅读 · 2021年7月11日
专知会员服务
24+阅读 · 2021年6月17日
【NeurIPS2020】图神经网络中的池化再思考
专知会员服务
51+阅读 · 2020年10月25日
相关基金
国家自然科学基金
20+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
20+阅读 · 2013年12月31日
国家自然科学基金
4+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
11+阅读 · 2008年12月31日
微信扫码咨询专知VIP会员