【ICML2022】基于少样本策略泛化的决策Transformer - 专知

会员服务 ·

0

【ICML2022】基于少样本策略泛化的决策Transformer

2022 年 7 月 11 日 专知

人们可以利用以前的经验，并从少量的演示中学习新的任务。与旨在通过更好的算法设计实现快速适应的离线元强化学习相比，我们研究了架构诱导偏差对少样本学习能力的影响。我们提出了一种基于提示的决策Transformer (Prompt- DT)，它利用了Transformer体系结构和提示框架的顺序建模能力，实现离线RL中的少样本适应。我们设计了轨迹提示，其中包含了几个样本的演示片段，并编码了特定任务的信息来指导策略的生成。我们在5个MuJoCo控制基准测试中的实验表明，Prompt-DT是一个强大的少样本学习器，无需对看不见的目标任务进行任何额外的微调。Prompt-D比它的变体和强元离线RL基线有很大的优势，它的轨迹提示只包含几个时间步。Prompt-D对于提示长度的更改也很稳健，并且可以泛化到分布外(OOD)环境。项目页面:https://mxu34.github.io/PromptDT/。

https://www.zhuanzhi.ai/paper/cf161afe08921d24ebd168d7aafa3415

专知便捷查看

便捷下载，请关注专知公众号（点击上方蓝色专知关注）

后台回复“PMDT” 就可以获取《【ICML2022】基于少样本策略泛化的决策Transformer》专知下载链接

专知，专业可信的人工智能知识分发 ，让认知协作更快更好！欢迎注册登录专知www.zhuanzhi.ai，获取100000+AI(AI与军事、医药、公安等)主题干货知识资料！

欢迎微信扫一扫加入专知人工智能知识星球群，获取最新AI专业干货知识教程资料和与专家交流咨询！

点击“ 阅读原文 ”，了解使用专知 ，查看获取100000+AI主题知识资料

登录查看更多

3

相关内容

决策Transformer

决策Transformer

【ICML2022】基于对比学习的离线元强化学习的鲁棒任务表示

【ICML2022】基于对比学习的离线元强化学习的鲁棒任务表示

专知会员服务

17+阅读 · 2022年6月23日

【ICML2022】Transformer是元强化学习器

【ICML2022】Transformer是元强化学习器

专知会员服务

56+阅读 · 2022年6月15日

【ICML2022】鲁棒强化学习的策略梯度法

【ICML2022】鲁棒强化学习的策略梯度法

专知会员服务

38+阅读 · 2022年5月21日

【AAAI2022】跨域少样本图分类

【AAAI2022】跨域少样本图分类

专知会员服务

30+阅读 · 2022年1月22日

【ICCV2021】通过动作外观对齐的元适应无监督的少样本动作识别

专知会员服务

13+阅读 · 2021年10月1日

【ICML2021】策略梯度贝叶斯鲁棒优化的模仿学习

专知会员服务

25+阅读 · 2021年6月15日

【ICML2021】授权驱动探索的元强化学习

专知会员服务

28+阅读 · 2021年5月24日

【ICML2021】学习一个通用模板的少样本数据集泛化

专知会员服务

26+阅读 · 2021年5月23日

【CVPR2021】现实世界域泛化的自适应方法

【CVPR2021】现实世界域泛化的自适应方法

专知会员服务

58+阅读 · 2021年3月31日

【ICLR2021】一种基于距离度量学习及行为正则化的完全离线的元强化学习方法

专知会员服务

17+阅读 · 2021年2月9日

【ECCV2022】对比视觉Transformer的在线持续学习

【ECCV2022】对比视觉Transformer的在线持续学习

专知

0+阅读 · 2022年7月30日

【ICML2022】时序自监督视频transformer

【ICML2022】时序自监督视频transformer

专知

1+阅读 · 2022年7月28日

【ICML2022】在线决策Transformer

【ICML2022】在线决策Transformer

专知

2+阅读 · 2022年7月27日

【ICML2022】序列决策的效用理论

【ICML2022】序列决策的效用理论

专知

1+阅读 · 2022年6月30日

【ICML2022】深度神经网络中的特征学习与信号传播

【ICML2022】深度神经网络中的特征学习与信号传播

专知

0+阅读 · 2022年6月2日

【CVPR2022】视频对比学习的概率表示

【CVPR2022】视频对比学习的概率表示

专知

1+阅读 · 2022年4月12日

【AAAI2022】基于协调域编码器和配对分类器的多源域适应

【AAAI2022】基于协调域编码器和配对分类器的多源域适应

专知

0+阅读 · 2022年2月9日

【NeurIPS2021】用于视频分割的密集无监督学习

【NeurIPS2021】用于视频分割的密集无监督学习

专知

0+阅读 · 2021年11月14日

【ICML2021】基于观察的跨域模仿学习

【ICML2021】基于观察的跨域模仿学习

专知

2+阅读 · 2021年8月30日

【ICML2020】拉普拉斯正则化小样本学习，Laplacian Regularized Few-Shot Learning

【ICML2020】拉普拉斯正则化小样本学习，Laplacian Regularized Few-Shot Learning

专知

27+阅读 · 2020年7月3日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

41+阅读 · 2015年12月31日

基于高斯过程模型的桥梁结构动力不确定性研究的解析方法

国家自然科学基金

0+阅读 · 2015年12月31日

基于DEM样本的交互式地形合成方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于参数的迁移学习分析、建模与应用

国家自然科学基金

6+阅读 · 2014年12月31日

具有性能约束布局问题的优化理论及双层规划模型的启发式并行算法

国家自然科学基金

0+阅读 · 2013年12月31日

进化融合学习自适应的随机优化方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

面向应急对地观测任务的多平台协同调度方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于贝叶斯推理的模糊逻辑强化学习模型研究

国家自然科学基金

18+阅读 · 2012年12月31日

基于深度学习的异构数据低维非线性表示

国家自然科学基金

1+阅读 · 2012年12月31日

基于字依存的中文精细结构标注及其学习算法研究

国家自然科学基金

0+阅读 · 2009年12月31日

Including the asymmetry of the Lorenz curve into measures of economic inequality

Arxiv

0+阅读 · 2022年9月13日

A Benchmark and a Baseline for Robust Multi-view Depth Estimation

Arxiv

0+阅读 · 2022年9月13日

Generating a Terrain-Robustness Benchmark for Legged Locomotion: A Prototype via Terrain Authoring and Active Learning

Arxiv

0+阅读 · 2022年9月13日

Sample Complexity of an Adversarial Attack on UCB-based Best-arm Identification Policy

Arxiv

0+阅读 · 2022年9月13日

GFCL: A GRU-based Federated Continual Learning Framework against Data Poisoning Attacks in IoV

Arxiv

0+阅读 · 2022年9月12日

Continual Learning for Pose-Agnostic Object Recognition in 3D Point Clouds

Arxiv

0+阅读 · 2022年9月11日

Pre-training image-language transformers for open-vocabulary tasks

Arxiv

0+阅读 · 2022年9月9日

Prompt Distribution Learning

Arxiv

14+阅读 · 2022年5月6日

Image-to-Image Translation: Methods and Applications

Arxiv

17+阅读 · 2021年1月21日

Few-shot Learning with Meta Metric Learners

Arxiv

13+阅读 · 2019年1月26日

VIP会员

相关主题

决策Transformer

相关VIP内容

【ICML2022】基于对比学习的离线元强化学习的鲁棒任务表示

【ICML2022】基于对比学习的离线元强化学习的鲁棒任务表示

专知会员服务

17+阅读 · 2022年6月23日

【ICML2022】Transformer是元强化学习器

【ICML2022】Transformer是元强化学习器

专知会员服务

56+阅读 · 2022年6月15日

【ICML2022】鲁棒强化学习的策略梯度法

【ICML2022】鲁棒强化学习的策略梯度法

专知会员服务

38+阅读 · 2022年5月21日

【AAAI2022】跨域少样本图分类

【AAAI2022】跨域少样本图分类

专知会员服务

30+阅读 · 2022年1月22日

【ICCV2021】通过动作外观对齐的元适应无监督的少样本动作识别

专知会员服务

13+阅读 · 2021年10月1日

【ICML2021】策略梯度贝叶斯鲁棒优化的模仿学习

专知会员服务

25+阅读 · 2021年6月15日

【ICML2021】授权驱动探索的元强化学习

专知会员服务

28+阅读 · 2021年5月24日

【ICML2021】学习一个通用模板的少样本数据集泛化

专知会员服务

26+阅读 · 2021年5月23日

【CVPR2021】现实世界域泛化的自适应方法

【CVPR2021】现实世界域泛化的自适应方法

专知会员服务

58+阅读 · 2021年3月31日

【ICLR2021】一种基于距离度量学习及行为正则化的完全离线的元强化学习方法

专知会员服务

17+阅读 · 2021年2月9日

热门VIP内容

开通专知VIP会员享更多权益服务

《战区安全决策课程体系》最新244页

《"无人机航母"原型平台》

任务规划与地形分析：现代复杂环境作战导航体系

《攻击场景描述形式化模型研究》

相关资讯

【ECCV2022】对比视觉Transformer的在线持续学习

【ECCV2022】对比视觉Transformer的在线持续学习

专知

0+阅读 · 2022年7月30日

【ICML2022】时序自监督视频transformer

【ICML2022】时序自监督视频transformer

专知

1+阅读 · 2022年7月28日

【ICML2022】在线决策Transformer

【ICML2022】在线决策Transformer

专知

2+阅读 · 2022年7月27日

【ICML2022】序列决策的效用理论

【ICML2022】序列决策的效用理论

专知

1+阅读 · 2022年6月30日

【ICML2022】深度神经网络中的特征学习与信号传播

【ICML2022】深度神经网络中的特征学习与信号传播

专知

0+阅读 · 2022年6月2日

【CVPR2022】视频对比学习的概率表示

【CVPR2022】视频对比学习的概率表示

专知

1+阅读 · 2022年4月12日

【AAAI2022】基于协调域编码器和配对分类器的多源域适应

【AAAI2022】基于协调域编码器和配对分类器的多源域适应

专知

0+阅读 · 2022年2月9日

【NeurIPS2021】用于视频分割的密集无监督学习

【NeurIPS2021】用于视频分割的密集无监督学习

专知

0+阅读 · 2021年11月14日

【ICML2021】基于观察的跨域模仿学习

【ICML2021】基于观察的跨域模仿学习

专知

2+阅读 · 2021年8月30日

【ICML2020】拉普拉斯正则化小样本学习，Laplacian Regularized Few-Shot Learning

【ICML2020】拉普拉斯正则化小样本学习，Laplacian Regularized Few-Shot Learning

专知

27+阅读 · 2020年7月3日

相关基金

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

41+阅读 · 2015年12月31日

基于高斯过程模型的桥梁结构动力不确定性研究的解析方法

国家自然科学基金

0+阅读 · 2015年12月31日

基于DEM样本的交互式地形合成方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于参数的迁移学习分析、建模与应用

国家自然科学基金

6+阅读 · 2014年12月31日

具有性能约束布局问题的优化理论及双层规划模型的启发式并行算法

国家自然科学基金

0+阅读 · 2013年12月31日

进化融合学习自适应的随机优化方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

面向应急对地观测任务的多平台协同调度方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于贝叶斯推理的模糊逻辑强化学习模型研究

国家自然科学基金

18+阅读 · 2012年12月31日

基于深度学习的异构数据低维非线性表示

国家自然科学基金

1+阅读 · 2012年12月31日

基于字依存的中文精细结构标注及其学习算法研究

国家自然科学基金

0+阅读 · 2009年12月31日

相关论文

Including the asymmetry of the Lorenz curve into measures of economic inequality

Arxiv

0+阅读 · 2022年9月13日

A Benchmark and a Baseline for Robust Multi-view Depth Estimation

Arxiv

0+阅读 · 2022年9月13日

Generating a Terrain-Robustness Benchmark for Legged Locomotion: A Prototype via Terrain Authoring and Active Learning

Arxiv

0+阅读 · 2022年9月13日

Sample Complexity of an Adversarial Attack on UCB-based Best-arm Identification Policy

Arxiv

0+阅读 · 2022年9月13日

GFCL: A GRU-based Federated Continual Learning Framework against Data Poisoning Attacks in IoV

Arxiv

0+阅读 · 2022年9月12日

Continual Learning for Pose-Agnostic Object Recognition in 3D Point Clouds

Arxiv

0+阅读 · 2022年9月11日

Pre-training image-language transformers for open-vocabulary tasks

Arxiv

0+阅读 · 2022年9月9日

Prompt Distribution Learning

Arxiv

14+阅读 · 2022年5月6日

Image-to-Image Translation: Methods and Applications

Arxiv

17+阅读 · 2021年1月21日

Few-shot Learning with Meta Metric Learners

Arxiv

13+阅读 · 2019年1月26日

大家都在搜

无人机集群

国防科技创新

软件无线电

OpenKG开源系列 | 海洋鱼类百科知识图谱（浙江大学）

微信扫码咨询专知VIP会员