Transformer在学习视觉和语言表示方面取得了巨大的成功,这在各种下游任务中都是通用的。在视觉控制中,学习可在不同控制任务间迁移的可迁移状态表示对于减少训练样本的大小具有重要意义。然而,将Transformer移植到采样高效的视觉控制仍然是一个具有挑战性和未解决的问题。为此,我们提出了一种新颖的控制Transformer(CtrlFormer),它具有许多现有技术所没有的吸引人的优点。首先,CtrlFormer在不同控制任务之间联合学习视觉令牌和策略令牌之间的自注意力机制,可以在不发生灾难性遗忘的情况下学习和迁移多任务表示。其次,我们精心设计了一个对比强化学习范式来训练CtrlFormer,使其能够达到较高的样本效率,这在控制问题中是非常重要的。例如,在DMControl基准测试中,不像最近的先进方法在使用100k样本迁移学习后在“Cartpole”任务中产生零分而失败,CtrlFormer可以在仅使用100k样本的情况下获得769±34的最先进的分数,同时保持之前任务的性能。代码和模型发布在我们的项目主页上。

https://www.zhuanzhi.ai/paper/9692ae63f6623f9fc8ad4d18583f4002

成为VIP会员查看完整内容
12

相关内容

【ICML2022】在线决策Transformer
专知会员服务
20+阅读 · 7月27日
【ICML2022】基于少样本策略泛化的决策Transformer
专知会员服务
22+阅读 · 7月11日
专知会员服务
13+阅读 · 2021年9月15日
专知会员服务
16+阅读 · 2021年9月13日
专知会员服务
17+阅读 · 2021年9月5日
专知会员服务
24+阅读 · 2021年7月15日
专知会员服务
17+阅读 · 2021年5月23日
【NeurIPS 2020】视觉和语言表示学习的大规模对抗性训练
专知会员服务
14+阅读 · 2020年10月27日
【ICML2022】在线决策Transformer
专知
0+阅读 · 7月27日
【ICML2022】序列决策的效用理论
专知
1+阅读 · 6月30日
中文版-BERT-预训练的深度双向Transformer语言模型-详细介绍
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
10+阅读 · 3月16日
Arxiv
15+阅读 · 2021年4月8日
Heterogeneous Graph Transformer
Arxiv
23+阅读 · 2020年3月3日
Arxiv
11+阅读 · 2018年4月25日
VIP会员
相关VIP内容
【ICML2022】在线决策Transformer
专知会员服务
20+阅读 · 7月27日
【ICML2022】基于少样本策略泛化的决策Transformer
专知会员服务
22+阅读 · 7月11日
专知会员服务
13+阅读 · 2021年9月15日
专知会员服务
16+阅读 · 2021年9月13日
专知会员服务
17+阅读 · 2021年9月5日
专知会员服务
24+阅读 · 2021年7月15日
专知会员服务
17+阅读 · 2021年5月23日
【NeurIPS 2020】视觉和语言表示学习的大规模对抗性训练
专知会员服务
14+阅读 · 2020年10月27日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
微信扫码咨询专知VIP会员