人们可以利用以前的经验,并从少量的演示中学习新的任务。与旨在通过更好的算法设计实现快速适应的离线元强化学习相比,我们研究了架构诱导偏差对少样本学习能力的影响。我们提出了一种基于提示的决策Transformer (Prompt- DT),它利用了Transformer体系结构和提示框架的顺序建模能力,实现离线RL中的少样本适应。我们设计了轨迹提示,其中包含了几个样本的演示片段,并编码了特定任务的信息来指导策略的生成。我们在5个MuJoCo控制基准测试中的实验表明,Prompt-DT是一个强大的少样本学习器,无需对看不见的目标任务进行任何额外的微调。Prompt-D比它的变体和强元离线RL基线有很大的优势,它的轨迹提示只包含几个时间步。Prompt-D对于提示长度的更改也很稳健,并且可以泛化到分布外(OOD)环境。项目页面:https://mxu34.github.io/PromptDT/。
https://www.zhuanzhi.ai/paper/cf161afe08921d24ebd168d7aafa3415