End-to-end models for autonomous driving hold the promise of learning complex behaviors directly from sensor data, but face critical challenges in safety and handling long-tail events. Reinforcement Learning (RL) offers a promising path to overcome these limitations, yet its success in autonomous driving has been elusive. We identify a fundamental flaw hindering this progress: a deep seated optimistic bias in the world models used for RL. To address this, we introduce a framework for post-training policy refinement built around an Impartial World Model. Our primary contribution is to teach this model to be honest about danger. We achieve this with a novel data synthesis pipeline, Counterfactual Synthesis, which systematically generates a rich curriculum of plausible collisions and off-road events. This transforms the model from a passive scene completer into a veridical forecaster that remains faithful to the causal link between actions and outcomes. We then integrate this Impartial World Model into our closed-loop RL framework, where it serves as an internal critic. During refinement, the agent queries the critic to ``dream" of the outcomes for candidate actions. We demonstrate through extensive experiments, including on a new Risk Foreseeing Benchmark, that our model significantly outperforms baselines in predicting failures. Consequently, when used as a critic, it enables a substantial reduction in safety violations in challenging simulations, proving that teaching a model to dream of danger is a critical step towards building truly safe and intelligent autonomous agents.


翻译:端到端自动驾驶模型有望直接从传感器数据中学习复杂行为,但在安全性和处理长尾事件方面面临关键挑战。强化学习为克服这些限制提供了可行路径,但其在自动驾驶领域的成功一直难以实现。我们发现阻碍这一进展的根本缺陷:用于强化学习的世界模型存在根深蒂固的乐观偏差。为此,我们提出了一个围绕公正世界模型构建的训后策略优化框架。我们的核心贡献在于教导该模型对危险保持诚实。我们通过创新的数据合成流程——反事实合成来实现这一目标,该系统化生成涵盖各类合理碰撞与偏离道路事件的丰富训练课程。这将模型从被动的场景补全器转变为真实预测器,始终保持行动与结果间因果关系的忠实性。随后,我们将该公正世界模型集成至闭环强化学习框架中,使其作为内部评判器。在优化过程中,智能体通过询问评判器来“预演”候选行动的可能结果。我们通过大量实验(包括在新构建的风险预见基准测试中)证明,该模型在故障预测方面显著优于基线方法。因此,当作为评判器使用时,它能在具有挑战性的仿真环境中大幅降低安全违规率,这证实了教导模型预知危险是构建真正安全智能自动驾驶系统的关键步骤。

0
下载
关闭预览

相关内容

【CVPR2024】MoReVQA:探索视频问答的模块化推理模型
专知会员服务
18+阅读 · 2024年4月10日
【WWW2024】GraphPro:推荐系统中的图预训练与提示学习
专知会员服务
23+阅读 · 2024年1月26日
【AAAI2021】RSPNet: 相对速度感知的无监督视频表示学习
专知会员服务
19+阅读 · 2021年2月12日
Auto-Keras与AutoML:入门指南
云栖社区
18+阅读 · 2019年2月9日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2013年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2013年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员