激励决策变异器,促进少热政策普遍化 (Prompting Decision Transformer for Few-Shot Policy Generalization) - 专知论文

会员服务 ·

0

Prompt · 小样本学习 · Learning · 变换 · 泛化理论 ·

2022 年 6 月 27 日

Prompting Decision Transformer for Few-Shot Policy Generalization

翻译：激励决策变异器,促进少热政策普遍化

Mengdi Xu,Yikang Shen,Shun Zhang,Yuchen Lu,Ding Zhao,Joshua B. Tenenbaum,Chuang Gan

from arxiv, ICML 2022. Project page: https://mxu34.github.io/PromptDT/

Humans can leverage prior experience and learn novel tasks from a handful of demonstrations. In contrast to offline meta-reinforcement learning, which aims to achieve quick adaptation through better algorithm design, we investigate the effect of architecture inductive bias on the few-shot learning capability. We propose a Prompt-based Decision Transformer (Prompt-DT), which leverages the sequential modeling ability of the Transformer architecture and the prompt framework to achieve few-shot adaptation in offline RL. We design the trajectory prompt, which contains segments of the few-shot demonstrations, and encodes task-specific information to guide policy generation. Our experiments in five MuJoCo control benchmarks show that Prompt-DT is a strong few-shot learner without any extra finetuning on unseen target tasks. Prompt-DT outperforms its variants and strong meta offline RL baselines by a large margin with a trajectory prompt containing only a few timesteps. Prompt-DT is also robust to prompt length changes and can generalize to out-of-distribution (OOD) environments.

翻译：人类可以利用先前的经验,从少数演示中学习新任务。与旨在通过更好的算法设计实现快速适应的离线元加强学习相反,我们调查了结构导导偏差对微小的学习能力的影响。我们提议了快速决策变异器(Prompt-DT),它利用变异器结构的相继建模能力和快速框架在离线RL中实现微粒适应。我们设计了轨迹快速,它包含微粒演示的部分内容,以及用于指导政策制定的编码特定任务信息。我们在五个 MuJoCo 控制基准中的实验显示,快速DT是一强的少见的学习者,对看不见的目标任务不作任何额外的微调。快速DT将其变异器和强大的元离线RL基线转换成一个大的边距,轨迹提示只包含几条时段。快速DT还能够快速推动长的改变,并可以概括到分配以外的环境。

5

相关内容

Prompt

不可错过！《机器学习100讲》课程，UBC Mark Schmidt讲授

不可错过！《机器学习100讲》课程，UBC Mark Schmidt讲授

专知会员服务

76+阅读 · 2022年6月28日

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

专知会员服务

166+阅读 · 2020年3月18日

【跨语言BERT模型大集合】Transfer learning is increasingly going multilingual with language-specific BERT models

专知会员服务

54+阅读 · 2020年1月30日

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

专知会员服务

49+阅读 · 2019年10月17日

Stabilizing Transformers for Reinforcement Learning

Stabilizing Transformers for Reinforcement Learning

专知会员服务

60+阅读 · 2019年10月17日

Deep Learning Based Detection and Correction of Cardiac MR Motion Artefacts During Reconstruction for High-Quality Segmentation

Deep Learning Based Detection and Correction of Cardiac MR Motion Artefacts During Reconstruction for High-Quality Segmentation

专知会员服务

59+阅读 · 2019年10月17日

Keras François Chollet 《Deep Learning with Python 》, 386页pdf

Keras François Chollet 《Deep Learning with Python 》, 386页pdf

专知会员服务

160+阅读 · 2019年10月12日

强化学习最新教程，17页pdf

强化学习最新教程，17页pdf

专知会员服务

182+阅读 · 2019年10月11日

【人工智能在2019：一年回顾】反人工智能，AI in 2019: A Year in Review

【人工智能在2019：一年回顾】反人工智能，AI in 2019: A Year in Review

专知会员服务

79+阅读 · 2019年10月10日

【加州大学伯克利分校博士论文】通过自我监督预测学习泛化

【加州大学伯克利分校博士论文】通过自我监督预测学习泛化

专知会员服务

65+阅读 · 2019年10月9日

VCIP 2022 Call for Demos

VCIP 2022 Call for Demos

CCF多媒体专委会

1+阅读 · 2022年6月6日

IEEE ICKG 2022: Call for Papers

IEEE ICKG 2022: Call for Papers

机器学习与推荐算法

3+阅读 · 2022年3月30日

ACM MM 2022 Call for Papers

ACM MM 2022 Call for Papers

CCF多媒体专委会

5+阅读 · 2022年3月29日

IEEE TII Call For Papers

IEEE TII Call For Papers

CCF多媒体专委会

3+阅读 · 2022年3月24日

ACM TOMM Call for Papers

ACM TOMM Call for Papers

CCF多媒体专委会

2+阅读 · 2022年3月23日

AIART 2022 Call for Papers

AIART 2022 Call for Papers

CCF多媒体专委会

1+阅读 · 2022年2月13日

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

Transferring Knowledge across Learning Processes

Transferring Knowledge across Learning Processes

CreateAMind

29+阅读 · 2019年5月18日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

43+阅读 · 2019年1月3日

A Technical Overview of AI & ML in 2018 & Trends for 2019

A Technical Overview of AI & ML in 2018 & Trends for 2019

待字闺中

18+阅读 · 2018年12月24日

一类四阶非线性方程的非协调有限元方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

变分法与非线性微分方程

国家自然科学基金

0+阅读 · 2014年12月31日

高维环境中随机核矩阵的谱分析

国家自然科学基金

0+阅读 · 2013年12月31日

红内期恶性疟原虫is-ncRNAs的功能研究

国家自然科学基金

0+阅读 · 2013年12月31日

拓扑绝缘体表面态的非线性光学研究

国家自然科学基金

1+阅读 · 2012年12月31日

非线性流固耦合动力学分析的时域频域混合法研究

国家自然科学基金

0+阅读 · 2012年12月31日

功能化间二酚杯[4]芳烃为模板的金属分子簇和纳米粒子可控制备

国家自然科学基金

0+阅读 · 2009年12月31日

Narf影响细胞衰老的分子机制研究

国家自然科学基金

0+阅读 · 2009年12月31日

肾上腺源性及原发性高血压线粒体tRNAIle、tRNALeu(UUR)和tRNAlys基因突变的差异对比研究

国家自然科学基金

0+阅读 · 2009年12月31日

汽车撞击时损伤的最小化

国家自然科学基金

0+阅读 · 2008年12月31日

An Empirical Study of Pseudo-Labeling for Image-based 3D Object Detection

Arxiv

0+阅读 · 2022年8月15日

Contrastive Learning with Bidirectional Transformers for Sequential Recommendation

Arxiv

0+阅读 · 2022年8月14日

Learning to Prompt for Vision-Language Models

Arxiv

0+阅读 · 2022年8月12日

Contrastive Learning for OOD in Object detection

Arxiv

0+阅读 · 2022年8月12日

Transformers are Meta-Reinforcement Learners

Arxiv

15+阅读 · 2022年6月14日

Prompt Distribution Learning

Arxiv

14+阅读 · 2022年5月6日

Pre-train, Prompt, and Predict: A Systematic Survey of Prompting Methods in Natural Language Processing

Arxiv

30+阅读 · 2021年7月28日

Making Pre-trained Language Models Better Few-shot Learners

Arxiv

14+阅读 · 2020年12月31日

Few-shot Learning for Multi-label Intent Detection

Arxiv

21+阅读 · 2020年10月11日

Transferring Common-Sense Knowledge for Object Detection

Arxiv

12+阅读 · 2018年4月3日

VIP会员

文章信息

相关主题

小样本学习

相关VIP内容

不可错过！《机器学习100讲》课程，UBC Mark Schmidt讲授

不可错过！《机器学习100讲》课程，UBC Mark Schmidt讲授

专知会员服务

76+阅读 · 2022年6月28日

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

专知会员服务

166+阅读 · 2020年3月18日

【跨语言BERT模型大集合】Transfer learning is increasingly going multilingual with language-specific BERT models

专知会员服务

54+阅读 · 2020年1月30日

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

专知会员服务

49+阅读 · 2019年10月17日

Stabilizing Transformers for Reinforcement Learning

Stabilizing Transformers for Reinforcement Learning

专知会员服务

60+阅读 · 2019年10月17日

Deep Learning Based Detection and Correction of Cardiac MR Motion Artefacts During Reconstruction for High-Quality Segmentation

Deep Learning Based Detection and Correction of Cardiac MR Motion Artefacts During Reconstruction for High-Quality Segmentation

专知会员服务

59+阅读 · 2019年10月17日

Keras François Chollet 《Deep Learning with Python 》, 386页pdf

Keras François Chollet 《Deep Learning with Python 》, 386页pdf

专知会员服务

160+阅读 · 2019年10月12日

强化学习最新教程，17页pdf

强化学习最新教程，17页pdf

专知会员服务

182+阅读 · 2019年10月11日

【人工智能在2019：一年回顾】反人工智能，AI in 2019: A Year in Review

【人工智能在2019：一年回顾】反人工智能，AI in 2019: A Year in Review

专知会员服务

79+阅读 · 2019年10月10日

【加州大学伯克利分校博士论文】通过自我监督预测学习泛化

【加州大学伯克利分校博士论文】通过自我监督预测学习泛化

专知会员服务

65+阅读 · 2019年10月9日

热门VIP内容

开通专知VIP会员享更多权益服务

检索增强生成（RAG）技术，261页slides

美联参会指南-联合规划与执行概述及政策框架 | 32页

从DeepSeek-R1学到的三个核心经验

大规模视觉模型中的提示式适配：综述

相关资讯

VCIP 2022 Call for Demos

VCIP 2022 Call for Demos

CCF多媒体专委会

1+阅读 · 2022年6月6日

IEEE ICKG 2022: Call for Papers

IEEE ICKG 2022: Call for Papers

机器学习与推荐算法

3+阅读 · 2022年3月30日

ACM MM 2022 Call for Papers

ACM MM 2022 Call for Papers

CCF多媒体专委会

5+阅读 · 2022年3月29日

IEEE TII Call For Papers

IEEE TII Call For Papers

CCF多媒体专委会

3+阅读 · 2022年3月24日

ACM TOMM Call for Papers

ACM TOMM Call for Papers

CCF多媒体专委会

2+阅读 · 2022年3月23日

AIART 2022 Call for Papers

AIART 2022 Call for Papers

CCF多媒体专委会

1+阅读 · 2022年2月13日

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

Transferring Knowledge across Learning Processes

Transferring Knowledge across Learning Processes

CreateAMind

29+阅读 · 2019年5月18日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

43+阅读 · 2019年1月3日

A Technical Overview of AI & ML in 2018 & Trends for 2019

A Technical Overview of AI & ML in 2018 & Trends for 2019

待字闺中

18+阅读 · 2018年12月24日

相关论文

An Empirical Study of Pseudo-Labeling for Image-based 3D Object Detection

Arxiv

0+阅读 · 2022年8月15日

Contrastive Learning with Bidirectional Transformers for Sequential Recommendation

Arxiv

0+阅读 · 2022年8月14日

Learning to Prompt for Vision-Language Models

Arxiv

0+阅读 · 2022年8月12日

Contrastive Learning for OOD in Object detection

Arxiv

0+阅读 · 2022年8月12日

Transformers are Meta-Reinforcement Learners

Arxiv

15+阅读 · 2022年6月14日

Prompt Distribution Learning

Arxiv

14+阅读 · 2022年5月6日

Pre-train, Prompt, and Predict: A Systematic Survey of Prompting Methods in Natural Language Processing

Arxiv

30+阅读 · 2021年7月28日

Making Pre-trained Language Models Better Few-shot Learners

Arxiv

14+阅读 · 2020年12月31日

Few-shot Learning for Multi-label Intent Detection

Arxiv

21+阅读 · 2020年10月11日

Transferring Common-Sense Knowledge for Object Detection

Arxiv

12+阅读 · 2018年4月3日

相关基金

一类四阶非线性方程的非协调有限元方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

变分法与非线性微分方程

国家自然科学基金

0+阅读 · 2014年12月31日

高维环境中随机核矩阵的谱分析

国家自然科学基金

0+阅读 · 2013年12月31日

红内期恶性疟原虫is-ncRNAs的功能研究

国家自然科学基金

0+阅读 · 2013年12月31日

拓扑绝缘体表面态的非线性光学研究

国家自然科学基金

1+阅读 · 2012年12月31日

非线性流固耦合动力学分析的时域频域混合法研究

国家自然科学基金

0+阅读 · 2012年12月31日

功能化间二酚杯[4]芳烃为模板的金属分子簇和纳米粒子可控制备

国家自然科学基金

0+阅读 · 2009年12月31日

Narf影响细胞衰老的分子机制研究

国家自然科学基金

0+阅读 · 2009年12月31日

肾上腺源性及原发性高血压线粒体tRNAIle、tRNALeu(UUR)和tRNAlys基因突变的差异对比研究

国家自然科学基金

0+阅读 · 2009年12月31日

汽车撞击时损伤的最小化

国家自然科学基金

0+阅读 · 2008年12月31日

微信扫码咨询专知VIP会员