决策变换器(Decision Transformers)最近作为离线强化学习(RL)的一种新颖且引人注目的范式出现,通过自回归的方式完成轨迹。尽管已有改进以克服最初的缺点,决策变换器的在线微调却仍然鲜有深入探索。广泛采用的最先进的在线决策变换器(ODT)在使用低奖励离线数据进行预训练时仍然面临困难。本文理论上分析了决策变换器的在线微调,显示常用的远离期望回报的“回报至终”(Return-To-Go, RTG)会妨碍在线微调过程。然而,这一问题在标准强化学习算法中通过值函数和优势函数得到了很好的解决。根据我们的分析,在实验中,我们发现简单地将TD3梯度添加到ODT的微调过程中,能够有效提高ODT的在线微调性能,特别是在ODT使用低奖励离线数据预训练的情况下。这些发现为进一步改进决策变换器提供了新的方向。

成为VIP会员查看完整内容
19

相关内容

【KDD2023】发现动态因果空间进行DAG结构学习
专知会员服务
32+阅读 · 2023年6月9日
【NeurIPS2022】通过模型转换的可解释强化学习
专知会员服务
36+阅读 · 2022年10月4日
【NAACL2022】自然语言处理的对比数据与学习
专知会员服务
45+阅读 · 2022年7月10日
专知会员服务
33+阅读 · 2021年9月18日
专知会员服务
29+阅读 · 2020年9月18日
专知会员服务
18+阅读 · 2020年9月11日
【Texas 大学】强化学习领域的课程学习:一个框架和综述
专知会员服务
71+阅读 · 2020年3月22日
【AAAI2023】用于图对比学习的谱特征增强
专知
18+阅读 · 2022年12月11日
【NeurIPS 2020】核基渐进蒸馏加法器神经网络
专知
13+阅读 · 2020年10月19日
【ICML2020】图神经网络谱聚类
专知
10+阅读 · 2020年7月7日
【KDD2020】图神经网络生成式预训练
专知
22+阅读 · 2020年7月3日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
27+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 12月10日
Arxiv
159+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
408+阅读 · 2023年3月31日
VIP会员
相关VIP内容
【KDD2023】发现动态因果空间进行DAG结构学习
专知会员服务
32+阅读 · 2023年6月9日
【NeurIPS2022】通过模型转换的可解释强化学习
专知会员服务
36+阅读 · 2022年10月4日
【NAACL2022】自然语言处理的对比数据与学习
专知会员服务
45+阅读 · 2022年7月10日
专知会员服务
33+阅读 · 2021年9月18日
专知会员服务
29+阅读 · 2020年9月18日
专知会员服务
18+阅读 · 2020年9月11日
【Texas 大学】强化学习领域的课程学习:一个框架和综述
专知会员服务
71+阅读 · 2020年3月22日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
27+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员