Model-based reinforcement learning (MBRL) can reduce interaction cost for autonomous driving by learning a predictive world model, but it typically still depends on task-specific rewards that are difficult to design and often brittle under distribution shift. This paper presents InDRiVE, a DreamerV3-style MBRL agent that performs reward-free pretraining in CARLA using only intrinsic motivation derived from latent ensemble disagreement. Disagreement acts as a proxy for epistemic uncertainty and drives the agent toward under-explored driving situations, while an imagination-based actor-critic learns a planner-free exploration policy directly from the learned world model. After intrinsic pretraining, we evaluate zero-shot transfer by freezing all parameters and deploying the pretrained exploration policy in unseen towns and routes. We then study few-shot adaptation by training a task policy with limited extrinsic feedback for downstream objectives (lane following and collision avoidance). Experiments in CARLA across towns, routes, and traffic densities show that disagreement-based pretraining yields stronger zero-shot robustness and robust few-shot collision avoidance under town shift and matched interaction budgets, supporting the use of intrinsic disagreement as a practical reward-free pretraining signal for reusable driving world models.


翻译:基于模型的强化学习(MBRL)通过学习预测性世界模型可以降低自动驾驶的交互成本,但它通常仍依赖于任务特定的奖励,这些奖励难以设计且在分布偏移下往往脆弱。本文提出 InDRiVE,一种 DreamerV3 风格的 MBRL 智能体,它仅利用源自潜在集成分歧的内在动机,在 CARLA 中进行无奖励预训练。分歧作为认知不确定性的代理,驱使智能体探索未充分探索的驾驶情境,而基于想象的行动者-评论家则直接从学习到的世界模型中习得无需规划器的探索策略。内在预训练后,我们通过冻结所有参数并在未见过的城镇和路线上部署预训练的探索策略,评估零样本迁移性能。随后,我们通过使用有限的外部反馈为下游目标(车道跟随和碰撞避免)训练任务策略,研究少样本适应能力。在 CARLA 中跨越不同城镇、路线和交通密度的实验表明,基于分歧的预训练在城镇转移和匹配的交互预算下,能产生更强的零样本鲁棒性和鲁棒的少样本碰撞避免能力,这支持了将内在分歧作为一种实用的无奖励预训练信号,用于可复用的驾驶世界模型。

0
下载
关闭预览

相关内容

在搭建网络模型时,需要随机初始化参数,然后开始训练网络,不断调整直到网络的损失越来越小。在训练的过程中,一开始初始化的参数会不断变化。当参数训练到比较好的时候就可以将训练模型的参数保存下来,以便训练好的模型可以在下次执行类似任务时获得较好的结果。
ICLR'21 | GNN联邦学习的新基准
图与推荐
12+阅读 · 2021年11月15日
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
【NeurIPS2019】图变换网络:Graph Transformer Network
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
VIP会员
相关资讯
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员