最近的工作表明,离线强化学习(RL)可以被表述为一个序列建模问题(Chen et al., 2021; Janner et al., 2021),并通过类似于大规模语言建模的方法解决。然而,RL的任何实际实例还涉及到一个在线组件,其中在被动离线数据集上预训练的策略通过与环境的特定任务交互进行微调。我们提出了在线决策Transformers (ODT),这是一种基于序列建模的RL算法,在一个统一的框架中融合了离线预训练和在线微调。我们的框架使用序列级熵正则化器与自回归建模目标相结合,用于样本高效的探索和微调。根据经验,我们表明,ODT在D4RL基准测试的绝对性能方面可以与最先进的技术相媲美,但在微调过程中获得的收益要显著得多。 https://www.zhuanzhi.ai/paper/0463e71720c9b14b6391b5c6bbecd1c1

成为VIP会员查看完整内容
33

相关内容

ICML 是 International Conference on Machine Learning的缩写,即国际机器学习大会。ICML如今已发展为由国际机器学习学会(IMLS)主办的年度机器学习国际顶级会议。
【ICML2022】时序自监督视频transformer
专知会员服务
30+阅读 · 2022年7月28日
【ICML2022】基于少样本策略泛化的决策Transformer
专知会员服务
36+阅读 · 2022年7月11日
【ICML2022】结构感知Transformer的图表示学习
专知会员服务
48+阅读 · 2022年6月17日
【ICML2022】Transformer是元强化学习器
专知会员服务
53+阅读 · 2022年6月15日
【CVPR2022】UniVIP:自监督视觉预训练的统一框架
专知会员服务
27+阅读 · 2022年3月16日
专知会员服务
15+阅读 · 2021年9月15日
专知会员服务
18+阅读 · 2021年9月13日
专知会员服务
33+阅读 · 2021年8月16日
专知会员服务
37+阅读 · 2021年6月3日
专知会员服务
81+阅读 · 2021年5月10日
【ICML2022】时序自监督视频transformer
专知
1+阅读 · 2022年7月28日
【ICML2022】通过能量最小化学习迭代推理
【ICML2022】GALAXY:极化图主动学习
专知
2+阅读 · 2022年6月12日
【ICLR2022】Transformers亦能贝叶斯推断
专知
0+阅读 · 2021年12月23日
【ICML2021】基于观察的跨域模仿学习
专知
2+阅读 · 2021年8月30日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
5+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
4+阅读 · 2011年12月31日
国家自然科学基金
46+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2022年9月17日
Arxiv
35+阅读 · 2022年3月14日
Arxiv
57+阅读 · 2022年1月5日
Arxiv
19+阅读 · 2021年4月8日
Arxiv
15+阅读 · 2021年2月19日
Talking-Heads Attention
Arxiv
15+阅读 · 2020年3月5日
VIP会员
相关VIP内容
【ICML2022】时序自监督视频transformer
专知会员服务
30+阅读 · 2022年7月28日
【ICML2022】基于少样本策略泛化的决策Transformer
专知会员服务
36+阅读 · 2022年7月11日
【ICML2022】结构感知Transformer的图表示学习
专知会员服务
48+阅读 · 2022年6月17日
【ICML2022】Transformer是元强化学习器
专知会员服务
53+阅读 · 2022年6月15日
【CVPR2022】UniVIP:自监督视觉预训练的统一框架
专知会员服务
27+阅读 · 2022年3月16日
专知会员服务
15+阅读 · 2021年9月15日
专知会员服务
18+阅读 · 2021年9月13日
专知会员服务
33+阅读 · 2021年8月16日
专知会员服务
37+阅读 · 2021年6月3日
专知会员服务
81+阅读 · 2021年5月10日
相关基金
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
5+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
4+阅读 · 2011年12月31日
国家自然科学基金
46+阅读 · 2009年12月31日
相关论文
Arxiv
0+阅读 · 2022年9月17日
Arxiv
35+阅读 · 2022年3月14日
Arxiv
57+阅读 · 2022年1月5日
Arxiv
19+阅读 · 2021年4月8日
Arxiv
15+阅读 · 2021年2月19日
Talking-Heads Attention
Arxiv
15+阅读 · 2020年3月5日
微信扫码咨询专知VIP会员