【ICML2022】在线决策Transformer

2022 年 7 月 27 日 专知


最近的工作表明,离线强化学习(RL)可以被表述为一个序列建模问题(Chen et al., 2021; Janner et al., 2021),并通过类似于大规模语言建模的方法解决。然而,RL的任何实际实例还涉及到一个在线组件,其中在被动离线数据集上预训练的策略通过与环境的特定任务交互进行微调。我们提出了在线决策Transformers (ODT),这是一种基于序列建模的RL算法,在一个统一的框架中融合了离线预训练和在线微调。我们的框架使用序列级熵正则化器与自回归建模目标相结合,用于样本高效的探索和微调。根据经验,我们表明,ODT在D4RL基准测试的绝对性能方面可以与最先进的技术相媲美,但在微调过程中获得的收益要显著得多。

https://www.zhuanzhi.ai/paper/0463e71720c9b14b6391b5c6bbecd1c1


专知便捷查看

便捷下载,请关注专知公众号(点击上方蓝色专知关注)

  • 后台回复“ODTC” 就可以获取【ICML2022】在线决策Transformer》专知下载链接

                       
专知,专业可信的人工智能知识分发 ,让认知协作更快更好!欢迎注册登录专知www.zhuanzhi.ai,获取100000+AI(AI与军事、医药、公安等)主题干货知识资料!
欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程资料和与专家交流咨询
点击“ 阅读原文 ”,了解使用 专知 ,查看获取100000+AI主题知识资料
登录查看更多
2

相关内容

【ICML2022】时序自监督视频transformer
专知会员服务
30+阅读 · 2022年7月28日
【ICML2022】基于少样本策略泛化的决策Transformer
专知会员服务
35+阅读 · 2022年7月11日
【ICML2022】结构感知Transformer的图表示学习
专知会员服务
47+阅读 · 2022年6月17日
【ICML2022】Transformer是元强化学习器
专知会员服务
50+阅读 · 2022年6月15日
专知会员服务
15+阅读 · 2021年9月15日
专知会员服务
33+阅读 · 2021年8月16日
专知会员服务
23+阅读 · 2021年6月8日
【ICML2021】具有线性复杂度的Transformer的相对位置编码
专知会员服务
24+阅读 · 2021年5月20日
【AAAI2021】生成式Transformer的对比三元组提取
专知会员服务
48+阅读 · 2021年2月7日
【KDD2022】自监督超图Transformer推荐系统
专知
1+阅读 · 2022年8月1日
【ICML2022】时序自监督视频transformer
专知
1+阅读 · 2022年7月28日
【ICML2021】基于观察的跨域模仿学习
专知
2+阅读 · 2021年8月30日
国家自然科学基金
19+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
Arxiv
0+阅读 · 2022年9月29日
Arxiv
69+阅读 · 2022年6月13日
Arxiv
19+阅读 · 2021年4月8日
Arxiv
17+阅读 · 2021年3月29日
Arxiv
15+阅读 · 2020年2月5日
VIP会员
相关VIP内容
【ICML2022】时序自监督视频transformer
专知会员服务
30+阅读 · 2022年7月28日
【ICML2022】基于少样本策略泛化的决策Transformer
专知会员服务
35+阅读 · 2022年7月11日
【ICML2022】结构感知Transformer的图表示学习
专知会员服务
47+阅读 · 2022年6月17日
【ICML2022】Transformer是元强化学习器
专知会员服务
50+阅读 · 2022年6月15日
专知会员服务
15+阅读 · 2021年9月15日
专知会员服务
33+阅读 · 2021年8月16日
专知会员服务
23+阅读 · 2021年6月8日
【ICML2021】具有线性复杂度的Transformer的相对位置编码
专知会员服务
24+阅读 · 2021年5月20日
【AAAI2021】生成式Transformer的对比三元组提取
专知会员服务
48+阅读 · 2021年2月7日
相关基金
国家自然科学基金
19+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
相关论文
Arxiv
0+阅读 · 2022年9月29日
Arxiv
69+阅读 · 2022年6月13日
Arxiv
19+阅读 · 2021年4月8日
Arxiv
17+阅读 · 2021年3月29日
Arxiv
15+阅读 · 2020年2月5日
Top
微信扫码咨询专知VIP会员