人们可以利用以前的经验,并从少量的演示中学习新的任务。与旨在通过更好的算法设计实现快速适应的离线元强化学习相比,我们研究了架构诱导偏差对少样本学习能力的影响。我们提出了一种基于提示的决策Transformer (Prompt- DT),它利用了Transformer体系结构和提示框架的顺序建模能力,实现离线RL中的少样本适应。我们设计了轨迹提示,其中包含了几个样本的演示片段,并编码了特定任务的信息来指导策略的生成。我们在5个MuJoCo控制基准测试中的实验表明,Prompt-DT是一个强大的少样本学习器,无需对看不见的目标任务进行任何额外的微调。Prompt-D比它的变体和强元离线RL基线有很大的优势,它的轨迹提示只包含几个时间步。Prompt-D对于提示长度的更改也很稳健,并且可以泛化到分布外(OOD)环境。项目页面:https://mxu34.github.io/PromptDT/。

https://www.zhuanzhi.ai/paper/cf161afe08921d24ebd168d7aafa3415

成为VIP会员查看完整内容
37

相关内容

国际机器学习大会(International Conference on Machine Learning,简称ICML ) 是由国际机器学习学会(IMLS)主办的机器学习国际顶级会议,也是CCF-A类学术会议。ICML 2022 共收到5630 投稿,接收1117 篇 short oral,118篇 long oral,录用率为21.94%。
【ICML2022】DRIBO:基于多视图信息瓶颈的鲁棒深度强化学习
【ICML2022】在线决策Transformer
专知会员服务
34+阅读 · 2022年7月27日
【ICML2022】Transformer是元强化学习器
专知会员服务
54+阅读 · 2022年6月15日
【ICML2022】MetAug:通过元特征增强的对比学习
专知会员服务
25+阅读 · 2022年5月20日
专知会员服务
19+阅读 · 2021年9月13日
专知会员服务
20+阅读 · 2021年8月30日
专知会员服务
26+阅读 · 2021年5月23日
【ICML2022】在线决策Transformer
专知
2+阅读 · 2022年7月27日
CVPR 2022 | 元学习在图像回归任务的表现
PaperWeekly
1+阅读 · 2022年6月11日
【AAAI2022】跨域少样本图分类
专知
1+阅读 · 2022年1月22日
基于自监督的可逆性强化学习方法
AI前线
4+阅读 · 2021年12月3日
【NeurIPS2021】视觉语言导航的课程学习
专知
1+阅读 · 2021年11月26日
【ICML2021】基于观察的跨域模仿学习
专知
2+阅读 · 2021年8月30日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
3+阅读 · 2011年12月31日
国家自然科学基金
2+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2022年8月28日
Arxiv
0+阅读 · 2022年8月26日
Arxiv
12+阅读 · 2022年4月12日
VIP会员
相关VIP内容
【ICML2022】DRIBO:基于多视图信息瓶颈的鲁棒深度强化学习
【ICML2022】在线决策Transformer
专知会员服务
34+阅读 · 2022年7月27日
【ICML2022】Transformer是元强化学习器
专知会员服务
54+阅读 · 2022年6月15日
【ICML2022】MetAug:通过元特征增强的对比学习
专知会员服务
25+阅读 · 2022年5月20日
专知会员服务
19+阅读 · 2021年9月13日
专知会员服务
20+阅读 · 2021年8月30日
专知会员服务
26+阅读 · 2021年5月23日
相关资讯
【ICML2022】在线决策Transformer
专知
2+阅读 · 2022年7月27日
CVPR 2022 | 元学习在图像回归任务的表现
PaperWeekly
1+阅读 · 2022年6月11日
【AAAI2022】跨域少样本图分类
专知
1+阅读 · 2022年1月22日
基于自监督的可逆性强化学习方法
AI前线
4+阅读 · 2021年12月3日
【NeurIPS2021】视觉语言导航的课程学习
专知
1+阅读 · 2021年11月26日
【ICML2021】基于观察的跨域模仿学习
专知
2+阅读 · 2021年8月30日
相关基金
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
3+阅读 · 2011年12月31日
国家自然科学基金
2+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
微信扫码咨询专知VIP会员