世界模型驱动的强化学习(RL)已成为自动驾驶领域一个有前景的方法,它通过学习潜在的动态模型,并利用该模型来训练规划策略。为了加速学习过程,通常采用预训练-微调范式,其中在线强化学习通过一个预训练的模型初始化,并且策略是在离线学习的。然而,在强化学习中简单地执行这种初始化可能会导致在新任务的在线交互过程中性能显著下降。为了解决这一挑战,我们首先分析了性能下降的原因,并识别出了其中的两个主要根本原因:规划策略的不匹配和动态模型的不匹配,这些问题源于分布变化。我们进一步分析了这些因素在微调过程中对性能下降的影响,研究结果表明,微调策略的选择在缓解这些影响方面起到了关键作用。接着,我们提出了AdaWM,一种基于自适应世界模型的规划方法,包含两个关键步骤:(a)不匹配识别,它量化了不匹配的程度并为微调策略提供指导;(b)基于对齐的微调,它根据需要选择性地更新策略或模型,并使用高效的低秩更新方法。通过在具有挑战性的CARLA自动驾驶任务上的大量实验,AdaWM显著改善了微调过程,从而在自动驾驶系统中实现了更强大且高效的性能。

成为VIP会员查看完整内容
9

相关内容

【ICML2024】SAPG:分裂与聚合策略梯度
专知会员服务
19+阅读 · 2024年7月30日
【ICML2024】上下文感知标记化的高效世界模型
专知会员服务
27+阅读 · 2024年7月2日
【NeurIPS2022】通过模型转换的可解释强化学习
专知会员服务
37+阅读 · 2022年10月4日
【KDD2022】自监督超图Transformer推荐系统
专知会员服务
34+阅读 · 2022年8月1日
专知会员服务
23+阅读 · 2021年9月27日
专知会员服务
22+阅读 · 2021年5月27日
专知会员服务
30+阅读 · 2020年9月18日
【ICML2020】持续终身学习的神经主题建模
专知会员服务
38+阅读 · 2020年6月22日
【ICML2021】因果匹配领域泛化
专知
12+阅读 · 2021年8月12日
【KDD2020】图神经网络生成式预训练
专知
22+阅读 · 2020年7月3日
国家自然科学基金
13+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
39+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
15+阅读 · 2013年12月31日
Arxiv
164+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
425+阅读 · 2023年3月31日
Arxiv
71+阅读 · 2023年3月26日
Arxiv
155+阅读 · 2023年3月24日
Arxiv
22+阅读 · 2023年3月17日
VIP会员
相关VIP内容
【ICML2024】SAPG:分裂与聚合策略梯度
专知会员服务
19+阅读 · 2024年7月30日
【ICML2024】上下文感知标记化的高效世界模型
专知会员服务
27+阅读 · 2024年7月2日
【NeurIPS2022】通过模型转换的可解释强化学习
专知会员服务
37+阅读 · 2022年10月4日
【KDD2022】自监督超图Transformer推荐系统
专知会员服务
34+阅读 · 2022年8月1日
专知会员服务
23+阅读 · 2021年9月27日
专知会员服务
22+阅读 · 2021年5月27日
专知会员服务
30+阅读 · 2020年9月18日
【ICML2020】持续终身学习的神经主题建模
专知会员服务
38+阅读 · 2020年6月22日
相关基金
国家自然科学基金
13+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
39+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
15+阅读 · 2013年12月31日
相关论文
Arxiv
164+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
425+阅读 · 2023年3月31日
Arxiv
71+阅读 · 2023年3月26日
Arxiv
155+阅读 · 2023年3月24日
Arxiv
22+阅读 · 2023年3月17日
微信扫码咨询专知VIP会员