由于离线多智能体强化学习面临着分布偏移问题和多智能体环境中常见的高维度问题的耦合效应,所以非常具有挑战性,导致动作超出分布(OOD)和价值过高估计现象极为严重。为了减轻这个问题,我们提出了一种新的多智能体离线RL算法,名为CounterFactual Conservative Q-Learning(CFCQL),用于进行保守的价值估计。CFCQL不是将所有智能体视为高维单一实体并直接对其应用单一智能体方法,而是以反事实的方式为每个智能体分别计算保守正则化,然后线性组合它们,以实现整体保守价值估计。我们证明,尽管它仍然具有低估特性和单一智能体保守方法的性能保证,但引入的正则化和安全政策改进边界独立于智能体数量,因此理论上优于上述直接处理方法,特别是当智能体数量较大时。我们还在包括离散和连续动作设置在内的四个环境中进行了实验,这些环境包括现有的和我们制作的数据集,实验表明CFCQL在大多数数据集上胜过现有方法,甚至在其中一些数据集上以显著优势胜出。

https://www.zhuanzhi.ai/paper/87817b0ed2fee90a1f0cb765e25d5a38

成为VIP会员查看完整内容
16

相关内容

【NeurIPS2023】跨情境课程设计的Transformer智能体
专知会员服务
25+阅读 · 2023年10月14日
【ECCV2022】对比视觉Transformer的在线持续学习
专知会员服务
21+阅读 · 2022年7月29日
【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习
专知会员服务
48+阅读 · 2021年12月20日
专知会员服务
37+阅读 · 2021年6月19日
【CVPR2021】基于端到端预训练的视觉-语言表征学习
专知会员服务
37+阅读 · 2021年4月9日
【AAAI2021】“可瘦身”的生成式对抗网络
专知会员服务
12+阅读 · 2020年12月12日
【CVPR2020-旷视】DPGN:分布传播图网络的小样本学习
专知会员服务
26+阅读 · 2020年4月1日
【AAAI2023】基于序图的因果结构强化学习
专知
4+阅读 · 2022年11月25日
【CVPR 2020 Oral】小样本类增量学习
专知
16+阅读 · 2020年6月26日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
37+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 2023年11月7日
Arxiv
0+阅读 · 2023年11月7日
A Survey of Large Language Models
Arxiv
398+阅读 · 2023年3月31日
VIP会员
相关VIP内容
【NeurIPS2023】跨情境课程设计的Transformer智能体
专知会员服务
25+阅读 · 2023年10月14日
【ECCV2022】对比视觉Transformer的在线持续学习
专知会员服务
21+阅读 · 2022年7月29日
【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习
专知会员服务
48+阅读 · 2021年12月20日
专知会员服务
37+阅读 · 2021年6月19日
【CVPR2021】基于端到端预训练的视觉-语言表征学习
专知会员服务
37+阅读 · 2021年4月9日
【AAAI2021】“可瘦身”的生成式对抗网络
专知会员服务
12+阅读 · 2020年12月12日
【CVPR2020-旷视】DPGN:分布传播图网络的小样本学习
专知会员服务
26+阅读 · 2020年4月1日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
37+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员