零样本强化学习(Zero-shot Reinforcement Learning, RL)的最新发展,为学习能够在零样本条件下适应任意新任务的预训练通用策略(pre-trained generalist policies)开辟了新的方向。尽管近年来流行的前向-后向表征(Forward-Backward, FB)及相关方法在零样本强化学习中展现出良好潜力,但我们在实证研究中发现,这类方法的建模表达能力不足,并且在离线学习过程中,由分布外(Out-of-Distribution, OOD)动作导致的外推误差会引起表征偏差,从而导致次优性能。 为了解决这些问题,我们提出了BREEZE(Behavior-REgularizEd Zero-shot RL with Expressivity enhancement),一种改进的基于FB框架的算法体系。BREEZE能够同时提升学习稳定性、策略提取能力以及表征学习质量。具体而言,BREEZE在零样本强化学习的策略学习中引入了行为正则化(behavioral regularization),将策略优化过程转化为一种稳定的样本内(in-sample)学习范式。此外,BREEZE通过任务条件扩散模型(task-conditioned diffusion model)进行策略提取,使其能够在零样本强化学习场景中生成高质量且多模态的动作分布。与此同时,BREEZE在表征建模中采用了基于注意力机制的高表达力架构(expressive attention-based architectures),以捕获环境动态之间的复杂关系。 在 ExORLD4RL Kitchen 等基准数据集上的大量实验表明,BREEZE在性能上达到或接近当前最优,同时在鲁棒性方面显著优于以往的离线零样本强化学习方法。 官方实现已开源于:https://github.com/Whiterrrrr/BREEZE。

成为VIP会员查看完整内容
1

相关内容

【KDD2024】面向鲁棒推荐的决策边界感知图对比学习
专知会员服务
21+阅读 · 2024年8月8日
【KDD2023】发现动态因果空间进行DAG结构学习
专知会员服务
33+阅读 · 2023年6月9日
【NeurIPS2022】通过模型转换的可解释强化学习
专知会员服务
38+阅读 · 2022年10月4日
【NAACL2022】自然语言处理的对比数据与学习
专知会员服务
46+阅读 · 2022年7月10日
【ICML2022】可达性约束强化学习
专知会员服务
23+阅读 · 2022年5月18日
专知会员服务
28+阅读 · 2021年5月24日
【MIT博士论文】数据高效强化学习,176页pdf
综述| 当图神经网络遇上强化学习
图与推荐
34+阅读 · 2022年7月1日
【KDD2020】图神经网络生成式预训练
专知
22+阅读 · 2020年7月3日
【CVPR 2020 Oral】小样本类增量学习
专知
20+阅读 · 2020年6月26日
国家自然科学基金
16+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
45+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
51+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
A Survey of Large Language Models
Arxiv
484+阅读 · 2023年3月31日
Arxiv
69+阅读 · 2022年9月7日
Arxiv
18+阅读 · 2021年3月16日
Arxiv
10+阅读 · 2020年11月26日
Arxiv
26+阅读 · 2019年3月5日
VIP会员
相关VIP内容
【KDD2024】面向鲁棒推荐的决策边界感知图对比学习
专知会员服务
21+阅读 · 2024年8月8日
【KDD2023】发现动态因果空间进行DAG结构学习
专知会员服务
33+阅读 · 2023年6月9日
【NeurIPS2022】通过模型转换的可解释强化学习
专知会员服务
38+阅读 · 2022年10月4日
【NAACL2022】自然语言处理的对比数据与学习
专知会员服务
46+阅读 · 2022年7月10日
【ICML2022】可达性约束强化学习
专知会员服务
23+阅读 · 2022年5月18日
专知会员服务
28+阅读 · 2021年5月24日
相关基金
国家自然科学基金
16+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
45+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
51+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
相关论文
A Survey of Large Language Models
Arxiv
484+阅读 · 2023年3月31日
Arxiv
69+阅读 · 2022年9月7日
Arxiv
18+阅读 · 2021年3月16日
Arxiv
10+阅读 · 2020年11月26日
Arxiv
26+阅读 · 2019年3月5日
微信扫码咨询专知VIP会员