自动驾驶的世界模型综述

摘要——近年来，自动驾驶领域的突破性进展彻底改变了车辆感知和与周围环境互动的方式。特别是，世界模型作为一种关键技术应运而生，提供了对驾驶环境的高保真表示，能够整合多传感器数据、语义信息和时间动态。这类模型将感知、预测和规划统一起来，使得自动驾驶系统能够在复杂且经常不可预测的条件下快速做出知情决策。研究趋势涉及多个领域，包括4D占用预测和生成数据合成，这些都能增强场景理解和轨迹预测。值得注意的是，近期的研究利用大规模预训练和先进的自监督学习，扩大了模型在稀有事件模拟和实时互动方面的能力。在应对诸多关键挑战时——包括领域适应、长尾异常检测以及多模态融合——这些世界模型为更强大、可靠且适应性更强的自动驾驶解决方案铺平了道路。本综述系统地回顾了当前的技术前沿，将相关技术按其在未来预测、行为规划以及两者之间的互动方面的侧重点进行了分类。我们还识别了未来研究的潜在方向，强调了整体集成、计算效率提升和高级仿真等方面。我们的综合分析凸显了世界模型在推动下一代自动驾驶系统朝着更安全、更公平的出行方向发展的变革性作用。

关键词——自动驾驶、世界模型、自监督学习、行为规划、生成方法 1 引言 1.1 概述完全自动驾驶的追求已经迅速成为全球科学研究和工业努力的焦点。其核心目标是同时减少交通事故、缓解拥堵，并提升不同社会群体的出行能力[1]。现有统计数据显示，人为错误仍然是道路事故的主要原因[2]，这表明，减少人工干预可以显著降低与交通相关的死亡和伤害的发生率。除了安全性，经济因素（例如，减少拥堵和优化物流）也推动了自动驾驶技术的发展[3]。尽管这些激励因素令人信服，实现高水平的自动驾驶仍需克服相当大的技术难题。最重要的挑战之一是感知和理解动态交通场景，这要求将异构传感器数据流（例如激光雷达、雷达、摄像头）融合成一个统一的环境表示[4]，[5]。从复杂的城市布局到高速公路，自动驾驶车辆必须快速吸收多模态数据，检测关键物体（如车辆、行人、自行车骑行者），并预测它们在不同条件下的运动——例如恶劣天气、无结构道路或繁忙的交通[6]，[7]。此外，实时决策还带来了严格的计算约束，要求系统在毫秒级响应时间内应对突发障碍物或异常行为[8]，[9]。同样关键的是，系统在极端或长尾场景（例如严重天气、施工区或异常驾驶行为）下的鲁棒性，在这些情况下，性能不足可能会危及整体安全性[10]，[11]。在这一背景下，构建稳健且稳定的世界模型已成为基础性要素。世界模型的概念包括创建一个高保真的驾驶环境表示——涵盖静态结构（如道路、建筑）和动态实体（如车辆、行人）[3]，[8]。一个全面的世界模型不断捕获语义和几何信息，同时实时更新这些表示，从而为下游任务（如物理世界预测）提供支持[12]，[13]。近期的进展通过集成多传感器数据来细化这些表示，例如生成性方法[14]，[15]，这些方法通过模拟物理世界来进行训练，将异构传感器输入统一为一致的自上而下的视角[16]，[17]。这些稳健的世界模型利用环境表示来优化智能体的行为规划，为更安全和更高效的自动驾驶应用奠定了基石。通过实现主动轨迹优化、实时危险检测和自适应路线规划，它们能够直接降低突发危险所带来的风险[5]，并与不断发展的车联网（V2X）系统相契合[9]。最终，世界模型促进了感知和控制子系统之间更紧密的集成，简化了闭环自动驾驶管道[18]，[19]。现有关于世界模型在自动驾驶中的综述通常可分为两类。一类主流综述侧重于描述广泛应用于多个领域的世界模型[20]–[22]，其中自动驾驶只是一个特定应用领域。第二类综述[23]，[24]则专注于世界模型在自动驾驶领域中的应用，尝试总结该领域的现状。目前，关于自动驾驶中世界模型的综述较少，它们通常对这些研究进行大致分类，且常常仅关注世界仿真或缺乏对行为规划与物理世界预测交互的讨论，导致该领域缺乏清晰的分类体系。本文的目标不仅是正式定义和分类自动驾驶中的世界模型，还提供对近期技术进展的全面回顾，并探索其在多个领域的广泛应用，特别强调它们在自动驾驶中的变革性潜力。这一结构化的分类方法使我们能够突出这些模型如何根据汽车行业的挑战进行塑造和适应。 1.2 贡献本文综述的指导思想是世界模型是理解动态场景的核心，旨在提供一个全面、结构化的现有方法论回顾。我们将最前沿的研究分类为三个关键领域：物理世界的未来预测：聚焦于动态物体和静态实体的物理世界演化[11]，[25]；智能体的行为规划：研究生成式和基于规则的规划方法，这些方法在不确定的驾驶条件下生成安全、有效的路径[12]，[13]；行为规划与未来预测之间的交互：强调统一框架如何捕捉智能体之间的交互，并利用预测性洞察进行协同优化[18]，[26]，[27]。具体来说，我们提供：未来预测模型的深入分析：我们讨论了基于图像/鸟瞰图/物体图/点云的研究如何在动态场景中实现几何和语义的高保真度，包括4D占用预测和基于扩散的生成方法。行为规划研究：我们探索了基于规则和基于学习的方法在行为规划中的应用，展示了在鲁棒性和避碰性能上的显著提升。交互模型研究的提案：我们系统回顾了交互模型，这些模型共同解决未来预测和智能体行为问题，并说明这种协同如何大幅提升现实世界的适应性和操作安全性。我们总结了目前的开放挑战，如自监督方法的无缝集成[26]、稀有事件增强的大规模仿真[10]，[28]、以及实时多智能体协调[27]，并为未来的研究提供了方向。随着研究领域的不断扩展以及现实世界应用的紧迫性，本综述旨在为研究人员和实践者提供有价值的参考，为更安全、更稳健的自动驾驶解决方案奠定基础。 1.3 结构本文的结构概览见图1，具体如下：第1节介绍了世界模型在自动驾驶中的重要性，并概述了它们解决的社会和技术挑战。第2节提供了世界模型在自动驾驶中的背景知识，重点讨论了物理世界的未来预测和智能体的行为规划。第3节详细介绍了方法的分类：第3.1节讨论了物理世界的未来预测方法，涉及动态物体和静态实体的物理世界演化；第3.2节讨论了强调生成安全、有效驾驶策略的先进行为规划方法；第3.3节研究了未来预测与行为规划之间的交互关系，重点介绍了复杂场景下的协同优化技术。第4节探讨了数据和训练范式的不同方法，包括监督学习、自监督学习和数据生成技术。第5节考察了世界模型应用的领域和任务，讨论了这些技术在感知、预测、仿真和系统集成等多个领域的影响。第6节对自动驾驶中的世界模型进行了详细评估，评估了它们在不同任务和指标中的有效性。第7节探讨了开放挑战、潜在研究方向和进一步创新的有前景的方向。第8节总结了本综述，并重申了世界模型在自动驾驶中不可或缺的作用。