近期在离线强化学习(RL)的研究中,我们发现基于回报的监督学习是解决决策问题的强大范式。然而,尽管有前景,但基于回报的方法仅限于使用标注有奖励的训练数据,因此在从无监督数据中学习时面临挑战。在这项工作中,我们旨在利用泛化的未来条件,以实现从无奖励和次优离线数据中进行有效的无监督预训练。我们提出了预训练决策变换器(PDT),这是一种在概念上简单的无监督RL预训练方法。PDT利用未来轨迹信息作为特权上下文在训练期间预测动作。能够根据当前和未来因素做出决策,增强了PDT的泛化能力。此外,这个特性可以很容易地融入到基于回报的框架中进行在线微调,通过为可能的未来分配回报值并根据各自的值采样未来嵌入。从实证上看,PDT的表现优于或与其监督预训练的对手相当,特别是在处理次优数据时。进一步分析表明,PDT能够从离线数据中提取出多样的行为,并通过在线微调可控地采样高回报行为。代码可在此处获取。

https://arxiv.org/abs/2305.16683

成为VIP会员查看完整内容
41

相关内容

国际机器学习大会(International Conference on Machine Learning,简称ICML ) 是由国际机器学习学会(IMLS)主办的机器学习国际顶级会议。 2023年7月23日至29日周六在夏威夷会议中心举行。
【ICML2023】改善自监督Vision Transformers的视觉提示调优
专知会员服务
33+阅读 · 2023年6月12日
【ICML2023】基于最优多任务插值的多模态基础模型迁移
专知会员服务
29+阅读 · 2023年4月29日
【ICML2022】基于少样本策略泛化的决策Transformer
专知会员服务
35+阅读 · 2022年7月11日
专知会员服务
19+阅读 · 2021年8月30日
专知会员服务
26+阅读 · 2021年5月24日
【CVPR2021】用Transformers无监督预训练进行目标检测
专知会员服务
55+阅读 · 2021年3月3日
【KDD2020-UCLA-微软】GPT-GNN:图神经网络的预训练
专知会员服务
61+阅读 · 2020年8月19日
对比自监督学习
深度学习自然语言处理
34+阅读 · 2020年7月15日
ICML2020 图神经网络的预训练
图与推荐
12+阅读 · 2020年4月4日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
4+阅读 · 2012年12月31日
国家自然科学基金
17+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
4+阅读 · 2011年12月31日
Edit Distance based RL for RNNT decoding
Arxiv
0+阅读 · 2023年7月14日
Max-Margin Contrastive Learning
Arxiv
17+阅读 · 2021年12月21日
Arxiv
10+阅读 · 2021年11月10日
Deep Face Recognition: A Survey
Arxiv
17+阅读 · 2019年2月12日
VIP会员
相关VIP内容
【ICML2023】改善自监督Vision Transformers的视觉提示调优
专知会员服务
33+阅读 · 2023年6月12日
【ICML2023】基于最优多任务插值的多模态基础模型迁移
专知会员服务
29+阅读 · 2023年4月29日
【ICML2022】基于少样本策略泛化的决策Transformer
专知会员服务
35+阅读 · 2022年7月11日
专知会员服务
19+阅读 · 2021年8月30日
专知会员服务
26+阅读 · 2021年5月24日
【CVPR2021】用Transformers无监督预训练进行目标检测
专知会员服务
55+阅读 · 2021年3月3日
【KDD2020-UCLA-微软】GPT-GNN:图神经网络的预训练
专知会员服务
61+阅读 · 2020年8月19日
相关基金
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
4+阅读 · 2012年12月31日
国家自然科学基金
17+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
4+阅读 · 2011年12月31日
微信扫码咨询专知VIP会员