多模态基础模型的兴起正在显著重塑自动驾驶技术的发展路径,使其从以往主要依赖人工设计的传统范式,转向基于统一基础模型的方法,该类方法能够直接从原始感知输入中推断运动轨迹。这类新方法还可以将自然语言作为额外模态进行融合,其中以视觉–语言–动作(Vision-Language-Action, VLA)模型为典型代表。 在本综述中,我们通过一套统一的分类体系,对这类方法的体系结构设计选择、方法学优势以及其固有能力与局限性进行全面审视。我们的调研涵盖了最近提出的 37 种方法,这些方法构成了基于基础模型的轨迹规划研究版图。除此之外,我们还从源代码与数据集的开放性角度对这些方法进行评估,为从业者与研究者提供有价值的信息。 我们提供了一个配套网页,用于根据提出的分类体系对方法进行整理与检索,网页链接如下: https://github.com/fiveai/FMs-for-driving-trajectories

1 引言

基础模型(Foundation Models,FMs)是利用海量数据进行训练的大规模模型,能够学习在多种下游任务中具有良好迁移性的表征。根据所处理的数据类型不同,这些模型通常被赋予不同的称谓。仅处理语言数据的基础模型,如 BERT(Devlin et al., 2019)、GPT-2(Radford et al., 2019)、ChatGPT(OpenAI, 2023)以及 Qwen(Bai et al., 2023a; Yang et al., 2024a; Qwen Team, 2025),被称为大型语言模型(Large Language Models, LLMs)。处理语言与视觉数据的模型则被视为视觉语言模型(Vision-Language Models, VLMs),典型示例包括 CLIP(Radford et al., 2021)、Flamingo(Alayrac et al., 2022)、LLaVA(Liu et al., 2023; 2024a; b)、GPT-4o(OpenAI, 2024)、Intern-VL(Chen et al., 2024e; Gao et al., 2024c; Zhu et al., 2025)以及 Gemini(Gemini Team, 2025)。与通常输出语言数据的 LLM 和 VLM 不同,另一类基础模型被设计用于从语言输入生成图像(如 Saharia et al., 2022; Peebles & Xie, 2023),或同时基于语言与视觉输入生成图像(Bruce et al., 2024; Genie Team, 2024; 2025; Meta Chameleon Team, 2025; NVIDIA, 2025)。 这些模型通常作为“主干(backbone)”,可通过微调进一步构建针对特定领域的模型;自动驾驶(Autonomous Driving,AD)领域亦不例外。本综述的主题是探讨基础模型对自动驾驶的作用。然而,在深入自动驾驶专门方法之前,一个自然的问题是:“未经专门训练或微调的基础模型——尤其是 VLM——能否理解驾驶场景?” 为回答这一问题,我们向 GPT-4o(OpenAI, 2024)输入三个复杂驾驶场景及相关问题,并将模型的交互展示于图 1。前两个示例均涉及罕见驾驶情境,GPT-4o 的回答不仅高度准确且具有洞察力。例如在第一个场景中,它不仅理解了场景内容,还给出了为何以及如何在当前情形中谨慎驾驶的合理解释;在最后一个示例中,模型识别出具有误导性的提示并给出强调安全驾驶的回答。 因此,由于其庞大的架构规模、训练策略以及所使用的海量训练数据,这类模型已能在一定程度上理解驾驶场景,使其成为构建自动驾驶特定解决方案的极具潜力的前置技术——这也是当前自动驾驶产业出现范式转变的关键驱动力之一。然而,要在自动驾驶的边缘设备上高效、可靠地部署基础模型,还需要在多个方面进行定制(例如 chain-of-thought 推理成本、模型规模、开源权重的可获取性、训练/推理效率、用于微调的适宜数据获取等),这些问题均构成该领域正在展开的研究与设计选择的重要部分。本综述旨在对这些方面提供整体视角,强调已有进展、现存局限以及未来的开放研究方向。


1.1 范围与贡献

基础模型可在自动驾驶中以多种方式发挥作用。有些方法利用合成数据进行训练(Chi et al., 2025; Yang et al., 2025a)和评估(Ljungbergh et al., 2024; Yan et al., 2025; Cao et al., 2025),其中自动驾驶世界模型(AD world models)(Hu et al., 2023a; Wang et al., 2024b; Gao et al., 2024b; Wen et al., 2024b; Zhao et al., 2025a; b)可用于生成 AD 数据。一些方法使用视觉问答(VQA)任务提升基础模型在自动驾驶中的场景理解与推理能力(Yang et al., 2024b; Ding et al., 2024b; Ma et al., 2024a; Nie et al., 2024; Lu et al., 2025; Qian et al., 2025a; Jiang et al., 2025c)。还有一些方法使用基础模型提升 AD 模型的某一特定能力,如感知(Pan et al., 2024b; Xinpeng et al., 2025)、预测(Zheng et al., 2024a; Zhou et al., 2025a)或控制(Wang et al., 2023b; Sha et al., 2025)。 在此背景下,一类方法利用基础模型输出文本动作,通常将场景分类为一组预定义“元动作(meta-actions)”,如“直行”“减速”等(Chen et al., 2023a; Fu et al., 2024; Wang et al., 2024c; Wen et al., 2024a; Jiang et al., 2025b; Ma et al., 2024b; Jin et al., 2024; Zhou et al., 2024b; Li et al., 2024a; Wang et al., 2025c)。最后,也有方法使用基础模型直接操作车辆,通常通过轨迹规划实现(Pan et al., 2024a; Xu et al., 2025b; Tian et al., 2024; Fu et al., 2025a; Wang et al., 2025b; Hwang et al., 2025; Renz et al., 2025)。 尽管上述每种能力都对构建稳健且准确的自动驾驶模型至关重要,但轨迹规划无疑是驾驶中的核心任务,而其他模块多作为辅助。因此,鉴于基础模型对该关键任务的巨大影响,本文主要聚焦于基础模型如何促进自动驾驶中的轨迹规划。 事实上,基础模型可以以多种方式增强轨迹规划,如图 2 所示。常见做法是对现有基础模型进行少量结构改动,然后在特定任务数据集上进行微调。微调过程可以非常简单,例如训练模型直接从传感器数据输出轨迹(Mao et al., 2023; Zhang et al., 2024; Yuan et al., 2024; Xu et al., 2025c; Xie et al., 2025; Zhou et al., 2025c)(见图 2(a))。此外,一些模型还采用 chain-of-thought(CoT)推理帮助 LLM 将问题分解为多个步骤以增强推理能力,如图 2(b) 所示,FM 先生成关键物体与元动作,再输出最终轨迹。 VLM 的语言模态也激发了一系列方法,通过语言和/或动作交互增强轨迹规划模型(Xu et al., 2024; Sima et al., 2024; Hwang et al., 2025; Shao et al., 2024a; Renz et al., 2025)。如图 2(c) 所示,语言交互可以提供模型行为的解释,为用户带来信任感;动作交互能力则可通过执行用户的驾驶指令来支持驾驶辅助(图 2(d)),类似于已有的视觉-语言-动作(VLA)模型(Brohan et al., 2023; Kim et al., 2024)。 另一类方法利用基础模型在训练和/或推理阶段为轨迹规划提供知识迁移(Pan et al., 2024a; Tian et al., 2024; Jiang et al., 2024; Wang et al., 2024a; Liu et al., 2025; Jiang et al., 2025a; Guo et al., 2025; Qian et al., 2025b; Xu et al., 2025b; Hegde et al., 2025; Chen et al., 2025; Han et al., 2025),图 2(e) 以示例展示了该类方法,其中一个 VLM(如 GPT-4o)输出场景描述、需要注意的关键物体以及元动作。 虽然已有大量研究利用基础模型提升自动驾驶轨迹规划,但该领域仍缺乏对现有进展的整体理解。方法种类繁多且异构,使得难以辨析不同方法间真正的差别,因为其底层架构、数据集和训练策略均存在巨大差异,且对性能具有重大影响。本综述旨在为这一碎片化的研究体系建立结构化框架,通过系统性分析与对比当前技术,突出影响模型效果的架构设计与能力差异,并提供统一视角以推动基础模型在轨迹规划中的进一步发展。 因此,我们的主要贡献如下: 1. 我们引入了一个针对自动驾驶轨迹规划中基础模型方法的分层分类体系,并基于该分类系统性分析了 37 个现有方法。 该研究尝试对这一快速演进的领域进行组织、解释与统一,为缺乏标准化基准和明确差异性的多样化方法提供结构化基础,助力未来的系统性进展。 1. 我们不仅提供了如何为轨迹规划定制和微调基础模型的实践指南,以及针对不同使用场景的数据集构建策略,还从代码和数据开放性角度评估了这些方法,从而为研究者与开发者提供可复现性与复用性的参考。 此外,我们还从效率、鲁棒性、评测基准以及仿真到真实(sim-to-real)转移等多个角度提出关键未来挑战与开放研究问题。


**

**

1.2 与现有综述的比较

尽管已有多篇与自动驾驶相关的综述,我们在此强调与它们的关键差异。一类综述关注自动驾驶整体,旨在展示与讨论当时的最先进技术(Yurtsever et al., 2020; Badue et al., 2021; Janai et al., 2021; Tampuu et al., 2022; Coelho & Oliveira, 2022; Li et al., 2023b; Zhao et al., 2024; Chen et al., 2024a)。其中部分综述范围更窄,例如专注端到端(E2E)训练模型(Tampuu et al., 2022; Coelho & Oliveira, 2022; Chen et al., 2024a)、强化学习方法(Kiran et al., 2022)、模仿学习方法(Le Mero et al., 2022),或自动驾驶数据集(Liu et al., 2024c)。也有一些综述聚焦感知(Wang et al., 2025a)、占据预测(Xu et al., 2025a)或运动规划(Teng et al., 2023)等单一辅助任务。虽然这些综述很有价值,但它们并未专门讨论基础模型在轨迹规划中的作用,因此与我们的综述互补。 随着基础模型在多个领域的广泛采用,一些综述也探讨了基础模型如何帮助自动驾驶(Gao et al., 2024a; Yang et al., 2024c; c; Zhou et al., 2024a; Li et al., 2025a; Cui et al., 2025)。尽管它们讨论了基础模型在 AD 中的应用,但这些研究的范围比 ours 更广,包括感知、数据生成、场景理解以及轨迹规划。因此其中关于轨迹规划的内容相对较少,而我们的综述则专注于轨迹规划,使得讨论更深入、更全面。 与我们更接近的一篇综述是 Jiang et al. (2025d),他们探讨了基于 VLM 的模型的不同架构范式及其时间演进。相比之下,我们还将利用基础模型进行“知识迁移”的方法包含在讨论范围内,在更广阔的方法集合上提出了分层分类体系,进一步深入分析了如何将 VLM 适配到轨迹规划任务,并评估了方法的开放性,对研究者与实践者具有重要参考价值。

成为VIP会员查看完整内容
0

相关内容

自动驾驶汽车,又称为无人驾驶汽车、电脑驾驶汽车或轮式移动机器人,是自动化载具的一种,具有传统汽车的运输能力。作为自动化载具,自动驾驶汽车不需要人为操作即能感测其环境及导航。完全的自动驾驶汽车仍未全面商用化,大多数均为原型机及展示系统,部分可靠技术才下放至商用车型,但有关于自驾车逐渐成为现实,已经引起了很多有关于道德的讨论。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
微信扫码咨询专知VIP会员