【ICML2022】基于少样本策略泛化的决策Transformer - 专知VIP

会员服务 ·

14

ICML 2022 · Transformer ·

2022 年 7 月 11 日

【ICML2022】基于少样本策略泛化的决策Transformer

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

人们可以利用以前的经验，并从少量的演示中学习新的任务。与旨在通过更好的算法设计实现快速适应的离线元强化学习相比，我们研究了架构诱导偏差对少样本学习能力的影响。我们提出了一种基于提示的决策Transformer (Prompt- DT)，它利用了Transformer体系结构和提示框架的顺序建模能力，实现离线RL中的少样本适应。我们设计了轨迹提示，其中包含了几个样本的演示片段，并编码了特定任务的信息来指导策略的生成。我们在5个MuJoCo控制基准测试中的实验表明，Prompt-DT是一个强大的少样本学习器，无需对看不见的目标任务进行任何额外的微调。Prompt-D比它的变体和强元离线RL基线有很大的优势，它的轨迹提示只包含几个时间步。Prompt-D对于提示长度的更改也很稳健，并且可以泛化到分布外(OOD)环境。项目页面:https://mxu34.github.io/PromptDT/。

https://www.zhuanzhi.ai/paper/cf161afe08921d24ebd168d7aafa3415

成为VIP会员查看完整内容

37

相关内容

ICML 2022

国际机器学习大会(International Conference on Machine Learning，简称ICML ) 是由国际机器学习学会（IMLS）主办的机器学习国际顶级会议，也是CCF-A类学术会议。ICML 2022 共收到5630 投稿，接收1117 篇 short oral，118篇 long oral，录用率为21.94%。

【ICML2022】DRIBO:基于多视图信息瓶颈的鲁棒深度强化学习

【ICML2022】DRIBO:基于多视图信息瓶颈的鲁棒深度强化学习

专知会员服务

17+阅读 · 2022年8月13日

【ICML2022】在线决策Transformer

【ICML2022】在线决策Transformer

专知会员服务

34+阅读 · 2022年7月27日

【ICML2022】基于对比学习的离线元强化学习的鲁棒任务表示

【ICML2022】基于对比学习的离线元强化学习的鲁棒任务表示

专知会员服务

17+阅读 · 2022年6月23日

【ICML2022】Transformer是元强化学习器

【ICML2022】Transformer是元强化学习器

专知会员服务

56+阅读 · 2022年6月15日

【ICML2022】MetAug:通过元特征增强的对比学习

【ICML2022】MetAug:通过元特征增强的对比学习

专知会员服务

25+阅读 · 2022年5月20日

【ICCV2021】通过动作外观对齐的元适应无监督的少样本动作识别

专知会员服务

13+阅读 · 2021年10月1日

【ICML2021】通过文本生成统一视觉和语言任务

专知会员服务

19+阅读 · 2021年9月13日

【CMU博士论文】面向分布偏移的自然语言处理学习神经模型，148页pdf

专知会员服务

37+阅读 · 2021年9月7日

【ICML2021】基于观察的跨域模仿学习

专知会员服务

20+阅读 · 2021年8月30日

【ICML2021】学习一个通用模板的少样本数据集泛化

专知会员服务

26+阅读 · 2021年5月23日

【ICML2022】在线决策Transformer

【ICML2022】在线决策Transformer

专知

2+阅读 · 2022年7月27日

【ICML2022】基于自适应上下文池化的高效表示学习

【ICML2022】基于自适应上下文池化的高效表示学习

专知

0+阅读 · 2022年7月9日

CVPR 2022 | 元学习在图像回归任务的表现

CVPR 2022 | 元学习在图像回归任务的表现

PaperWeekly

1+阅读 · 2022年6月11日

【ICML2022】深度潜在粒子的无监督图像表示学习

【ICML2022】深度潜在粒子的无监督图像表示学习

专知

2+阅读 · 2022年6月6日

让图网络更稳健！谷歌提出SR-GNN，无惧数据标记偏差和领域转移

让图网络更稳健！谷歌提出SR-GNN，无惧数据标记偏差和领域转移

新智元

1+阅读 · 2022年3月18日

【AAAI2022】跨域少样本图分类

【AAAI2022】跨域少样本图分类

专知

1+阅读 · 2022年1月22日

基于自监督的可逆性强化学习方法

基于自监督的可逆性强化学习方法

AI前线

4+阅读 · 2021年12月3日

【NeurIPS2021】视觉语言导航的课程学习

【NeurIPS2021】视觉语言导航的课程学习

专知

1+阅读 · 2021年11月26日

【ICML2021】基于观察的跨域模仿学习

【ICML2021】基于观察的跨域模仿学习

专知

2+阅读 · 2021年8月30日

赛尔原创@ACL 2021 | 基于一致性正则的跨语言微调方法

赛尔原创@ACL 2021 | 基于一致性正则的跨语言微调方法

哈工大SCIR

0+阅读 · 2021年6月22日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

本体匹配中的参数和策略调谐问题研究

国家自然科学基金

0+阅读 · 2014年12月31日

判别式表观建模方法

国家自然科学基金

1+阅读 · 2014年12月31日

基于偏置优化策略的三维扫描数据实体化造型方法研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于行为踪迹的网络蠕虫模型和检测方法

国家自然科学基金

0+阅读 · 2013年12月31日

基于Multi-Agent的应急状态下协同供应链数据集成研究

国家自然科学基金

0+阅读 · 2012年12月31日

似然方法的有限样本研究

国家自然科学基金

0+阅读 · 2011年12月31日

基于二维随机映射和一范数优化的有监督图像分类研究

国家自然科学基金

3+阅读 · 2011年12月31日

基于语言理解的机器翻译方法研究

国家自然科学基金

2+阅读 · 2009年12月31日

基于选择性注意模型的可视媒体文本检测方法研究

国家自然科学基金

0+阅读 · 2009年12月31日

Lifelong Learning for Question Answering with Hierarchical Prompts

Arxiv

0+阅读 · 2022年8月31日

Semi-supervised Semantic Segmentation with Mutual Knowledge Distillation

Arxiv

0+阅读 · 2022年8月30日

CMD: Self-supervised 3D Action Representation Learning with Cross-modal Mutual Distillation

Arxiv

0+阅读 · 2022年8月30日

Bayesian Graph Contrastive Learning

Arxiv

0+阅读 · 2022年8月28日

Socially Fair Reinforcement Learning

Arxiv

0+阅读 · 2022年8月26日

SparseTIR: Composable Abstractions for Sparse Compilation in Deep Learning

Arxiv

0+阅读 · 2022年8月26日

Reduce Communication Costs and Preserve Privacy: Prompt Tuning Method in Federated Learning

Arxiv

0+阅读 · 2022年8月25日

Few-shot Learning with Noisy Labels

Arxiv

13+阅读 · 2022年4月12日

Adaptive Consistency Regularization for Semi-Supervised Transfer Learning

Arxiv

23+阅读 · 2021年3月3日

Adversarial Multimodal Representation Learning for Click-Through Rate Prediction

Arxiv

23+阅读 · 2020年3月7日

VIP会员

相关主题

相关VIP内容

【ICML2022】DRIBO:基于多视图信息瓶颈的鲁棒深度强化学习

【ICML2022】DRIBO:基于多视图信息瓶颈的鲁棒深度强化学习

专知会员服务

17+阅读 · 2022年8月13日

【ICML2022】在线决策Transformer

【ICML2022】在线决策Transformer

专知会员服务

34+阅读 · 2022年7月27日

【ICML2022】基于对比学习的离线元强化学习的鲁棒任务表示

【ICML2022】基于对比学习的离线元强化学习的鲁棒任务表示

专知会员服务

17+阅读 · 2022年6月23日

【ICML2022】Transformer是元强化学习器

【ICML2022】Transformer是元强化学习器

专知会员服务

56+阅读 · 2022年6月15日

【ICML2022】MetAug:通过元特征增强的对比学习

【ICML2022】MetAug:通过元特征增强的对比学习

专知会员服务

25+阅读 · 2022年5月20日

【ICCV2021】通过动作外观对齐的元适应无监督的少样本动作识别

专知会员服务

13+阅读 · 2021年10月1日

【ICML2021】通过文本生成统一视觉和语言任务

专知会员服务

19+阅读 · 2021年9月13日

【CMU博士论文】面向分布偏移的自然语言处理学习神经模型，148页pdf

专知会员服务

37+阅读 · 2021年9月7日

【ICML2021】基于观察的跨域模仿学习

专知会员服务

20+阅读 · 2021年8月30日

【ICML2021】学习一个通用模板的少样本数据集泛化

专知会员服务

26+阅读 · 2021年5月23日

热门VIP内容

开通专知VIP会员享更多权益服务

《乌克兰无人机产业：志愿者与政策在构建新兴无人机产业中的协同作用》最新报告

《人工智能辅助决策中的数据可视化：系统性综述》

人工智能驱动弹药制造现代化：美国陆军转型之路

《敏捷作战部署中枢纽-辐条基地选址优化研究》80页

相关资讯

【ICML2022】在线决策Transformer

【ICML2022】在线决策Transformer

专知

2+阅读 · 2022年7月27日

【ICML2022】基于自适应上下文池化的高效表示学习

【ICML2022】基于自适应上下文池化的高效表示学习

专知

0+阅读 · 2022年7月9日

CVPR 2022 | 元学习在图像回归任务的表现

CVPR 2022 | 元学习在图像回归任务的表现

PaperWeekly

1+阅读 · 2022年6月11日

【ICML2022】深度潜在粒子的无监督图像表示学习

【ICML2022】深度潜在粒子的无监督图像表示学习

专知

2+阅读 · 2022年6月6日

让图网络更稳健！谷歌提出SR-GNN，无惧数据标记偏差和领域转移

让图网络更稳健！谷歌提出SR-GNN，无惧数据标记偏差和领域转移

新智元

1+阅读 · 2022年3月18日

【AAAI2022】跨域少样本图分类

【AAAI2022】跨域少样本图分类

专知

1+阅读 · 2022年1月22日

基于自监督的可逆性强化学习方法

基于自监督的可逆性强化学习方法

AI前线

4+阅读 · 2021年12月3日

【NeurIPS2021】视觉语言导航的课程学习

【NeurIPS2021】视觉语言导航的课程学习

专知

1+阅读 · 2021年11月26日

【ICML2021】基于观察的跨域模仿学习

【ICML2021】基于观察的跨域模仿学习

专知

2+阅读 · 2021年8月30日

赛尔原创@ACL 2021 | 基于一致性正则的跨语言微调方法

赛尔原创@ACL 2021 | 基于一致性正则的跨语言微调方法

哈工大SCIR

0+阅读 · 2021年6月22日

相关基金

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

本体匹配中的参数和策略调谐问题研究

国家自然科学基金

0+阅读 · 2014年12月31日

判别式表观建模方法

国家自然科学基金

1+阅读 · 2014年12月31日

基于偏置优化策略的三维扫描数据实体化造型方法研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于行为踪迹的网络蠕虫模型和检测方法

国家自然科学基金

0+阅读 · 2013年12月31日

基于Multi-Agent的应急状态下协同供应链数据集成研究

国家自然科学基金

0+阅读 · 2012年12月31日

似然方法的有限样本研究

国家自然科学基金

0+阅读 · 2011年12月31日

基于二维随机映射和一范数优化的有监督图像分类研究

国家自然科学基金

3+阅读 · 2011年12月31日

基于语言理解的机器翻译方法研究

国家自然科学基金

2+阅读 · 2009年12月31日

基于选择性注意模型的可视媒体文本检测方法研究

国家自然科学基金

0+阅读 · 2009年12月31日

相关论文

Lifelong Learning for Question Answering with Hierarchical Prompts

Arxiv

0+阅读 · 2022年8月31日

Semi-supervised Semantic Segmentation with Mutual Knowledge Distillation

Arxiv

0+阅读 · 2022年8月30日

CMD: Self-supervised 3D Action Representation Learning with Cross-modal Mutual Distillation

Arxiv

0+阅读 · 2022年8月30日

Bayesian Graph Contrastive Learning

Arxiv

0+阅读 · 2022年8月28日

Socially Fair Reinforcement Learning

Arxiv

0+阅读 · 2022年8月26日

SparseTIR: Composable Abstractions for Sparse Compilation in Deep Learning

Arxiv

0+阅读 · 2022年8月26日

Reduce Communication Costs and Preserve Privacy: Prompt Tuning Method in Federated Learning

Arxiv

0+阅读 · 2022年8月25日

Few-shot Learning with Noisy Labels

Arxiv

13+阅读 · 2022年4月12日

Adaptive Consistency Regularization for Semi-Supervised Transfer Learning

Arxiv

23+阅读 · 2021年3月3日

Adversarial Multimodal Representation Learning for Click-Through Rate Prediction

Arxiv

23+阅读 · 2020年3月7日

微信扫码咨询专知VIP会员