生成式人工智能(GenAI)正在掀起一场变革性的技术浪潮,凭借其在内容生成、推理、规划以及多模态理解方面无与伦比的能力,重塑各行各业。这一革命性力量为解决工程领域最宏大的挑战之一——实现可靠的完全自动驾驶,特别是向 L5 级自动驾驶迈进——提供了迄今为止最具前景的路径。
本综述系统地汇总并评析了生成式人工智能在自动驾驶技术栈中的新兴作用。我们首先提炼了现代生成建模的基本原理及其权衡,包括变分自编码器(VAE)、生成对抗网络(GAN)、扩散模型(Diffusion Models)以及大语言模型(LLM)。随后,我们绘制了这些模型在图像、激光雷达(LiDAR)、轨迹、占用图和视频生成等方面的前沿应用图谱,并探讨了由大语言模型引导的推理与决策能力。
我们对其实际应用进行了分类,包括合成数据工作流、端到端自动驾驶策略、高保真数字孪生系统、智能交通网络以及向具身智能的跨领域迁移。此外,我们还识别了若干关键挑战与潜在机遇,如对稀有场景的全面泛化能力、评估与安全验证、受限预算下的部署、监管合规、伦理问题及其环境影响等,并提出了涵盖理论保障、信任度量、交通系统整合及社会技术影响等方面的研究规划。
通过整合上述内容,本综述为研究人员、工程师和政策制定者提供了一份面向未来的参考资料,以助力其应对生成式人工智能与先进自动驾驶融合发展所带来的变革。所引用文献的持续更新版本可参见:https://github.com/taco-group/GenAI4AD。
关键词:生成式人工智能 · 计算机视觉 · 大语言模型 · 自动驾驶
自动驾驶长期以来被视为一项具有变革性的技术,承诺在提升道路安全、出行能力和物流效率方面带来革命性影响。据高盛研究(Goldman Sachs Research)预测,到2030年,全球超过12%的新车销量可能实现SAE L3及以上级别的自动化(如图1所示),有望在实现完全自动驾驶之前,开启一个数十亿美元规模的Robotaxi市场。这一愿景正在逐步从设想变为现实,得益于过去二十年人工智能(AI)、计算机视觉、机器人技术和智能交通系统的快速发展。 这一进展覆盖了整个技术栈,从大规模数据采集 [2, 3]、自监督模型训练 [4, 5]、大规模验证 [6–9],到高效的车载部署 [10–12],都受到高性能计算设备(如GPU)的推动。现代自动驾驶车辆通常配备高分辨率摄像头、旋转式与固态激光雷达(LiDAR)、毫米波雷达、惯性测量单元(IMU)以及全球导航卫星系统(GNSS/GPS)等多种传感器(见图2),用于采集周围环境的动态信息。车规级域控制器通过多核CPU、高效GPU、高带宽内存及强大的电源管理电路 [13–16],实现多源数据的实时融合与处理,支持从SAE L2/L3(需要驾驶员监督)到特定环境下的L4自动驾驶。 最终目标是实现L5自动驾驶,即在所有条件下无需人类介入。其潜在收益包括更安全的道路、更普惠的出行体验,以及更高效的运输体系,这些都激励了全球范围内的大规模研发投入 [18]。 学术界为自动驾驶奠定了坚实基础,解决了多个关键挑战。2005年斯坦福大学的“Stanley”赢得DARPA大奖赛,首次展示了车辆在复杂环境中自主导航的可行性 [19]。随后,研究人员在同步定位与建图(SLAM)[20]等领域取得突破。然而,实现真正稳健的自动驾驶系统仍依赖于感知与决策的技术进步,而这些正是传统方法的瓶颈。深度学习的崛起推动了新一轮范式变革。ResNet [21] 与 Transformer [22, 23] 等先进神经网络架构,使得从多模态传感器中提取高层次语义信息成为可能,从而显著提升了感知能力,带动了目标检测 [24, 25]、语义分割 [26, 27] 和目标追踪 [28, 29] 等关键任务的发展,推动了复杂场景的理解能力 [30, 31]。 在此基础上,研究进一步拓展至行为预测 [32]、路径规划 [33],乃至端到端自动驾驶系统的探索——即直接将传感器输入映射到控制输出 [34, 35]。但正如Clive Humby所言,“数据是新的石油” [36],这一转型依赖于大规模、高质量的视觉与多模态数据集,如ImageNet [37]、MS COCO [38]、YouTube8M [39],以及专为自动驾驶设计的KITTI [40]、nuScenes [2]、Waymo Open [3]、Argoverse [41] 和 BDD100K [42] 等。仿真平台如CARLA [43]、AirSim [44]、SUMO [45] 和Isaac Sim [46]同样至关重要,既用于生成地面真实数据,也为算法验证提供平台。 尽管工具与算法取得飞跃,大多数学术系统仍停留在原型或受控测试阶段 [47, 48],这反映出从实验室走向大规模产品部署的复杂性。工业界正在加速这一转化进程。Waymo(起源于斯坦福DARPA团队)和百度Apollo Go是L4 Robotaxi的领导者。Waymo自2020年起在凤凰城运营完全无人驾驶服务,目前已扩展至旧金山、洛杉矶与奥斯汀等多个城市;百度在中国十多个城市实现了无人运营,累计服务超千万次 [49]。Zoox(亚马逊支持)开发专用车辆,计划于2025年在拉斯维加斯和旧金山推出服务 [50]。然而,L4落地仍面临技术、安全和商业障碍。Cruise(通用支持)于2023年底发生安全事故,2024年12月宣布暂停Robotaxi运营,转而专注于高级驾驶辅助系统(ADAS)[51]。 目前市场主流仍是L2/L3级ADAS,如特斯拉Autopilot与FSD Beta [52],以及Mobileye等供应商为多家车厂提供的解决方案 [53]。这表明从受限环境扩展到广义自动驾驶仍有重大挑战。NVIDIA的DRIVE平台 [54] 是核心推动者,支持从感知到规划的AI计算。2022年推出的DRIVE Thor超级芯片 [55],进一步整合ADAS与自动驾驶功能,为量产车提供统一计算平台。 尽管投入巨大,自动驾驶要实现L5仍面临核心障碍: 1. 长尾问题(The Devil is in the “Long Tails”):系统难以泛化到训练数据之外的稀有场景(如极端天气、光照、传感器干扰)[58]。 1. 不确定性管理(Confidentially Confused):如何在大规模、多样化环境中可靠运行,并应对模型与环境的不确定性。 1. 复杂性与成本(An Arm and a LiDAR?):高计算需求与昂贵传感器限制了系统的可扩展性和普及性。
当前范式的局限性表明,需要转向更强大、可适应的AI架构以突破技术瓶颈。
OpenAI在2021年推出的DALL·E [59] 引发了生成式人工智能(GenAI)的爆炸式发展,紧随其后的Midjourney [60] 和Stable Diffusion [61] 进一步普及了AI生成艺术 [62],广泛影响艺术、设计、营销、媒体和娱乐产业 [63, 64]。与视觉生成技术并行发展的是大型语言模型(LLM)的崛起,如ChatGPT [65] 和GPT-4 [66] 展现出前所未有的自然语言理解与推理能力 [67]。Meta发布的开源LLaMA系列 [68–70] 促进了社区研究的发展,多模态功能的融合更开启了视觉语言推理与人机协作的新方向。 在本综述中,我们将生成式AI定义为:能够学习数据分布并合成新数据的模型,包括图像、视频、文本、音频、代码乃至三维环境。这些输出在统计上高度接近真实数据,赋予其在生成高质量、多样化、可扩展数据表示方面的强大能力。 GenAI 为突破L5瓶颈提供新路径: * 高保真“长尾”模拟:通过合成LiDAR [71]、摄像头 [72] 与轨迹数据 [73],以及复杂场景 [74],生成涵盖稀有事件的数据集和仿真环境。 * 多主体建模与长时预测:提升系统在不确定性下的感知与规划能力。 * 统一多模态系统:如LLaVA [75] 与DriveVLM [76],融合感知、预测与规划于语言中心架构中,替代脆弱的模块化流程。
因此,生成式AI不仅是补充工具,更代表了范式转变:向统一、数据驱动、可泛化系统迈进,加速实现安全可靠的L5自动驾驶。
第2节:对比本综述与其他自动驾驶相关综述,推荐阅读扩展材料。 * 第3节:汇总自动驾驶研究中常用数据集,并按应用领域分类,提供下载链接。 * 第4节:系统梳理生成模型的基本架构(VAE、GAN、扩散模型、自回归模型)。 * 第5节:深入探讨适用于自动驾驶的前沿GenAI模型,按图像、视频、LiDAR、轨迹等模态划分。 * 第6节:详述GenAI在自动驾驶中的关键应用,如传感器合成、世界建模、多智能体预测、场景理解与决策。 * 第7节:拓展视角,探讨生成式AI在具身智能领域的研究进展。 * 第8节:审视当前技术局限与未来挑战,涵盖数据稀缺、理论缺口、安全评估、仿真精度,以及政策、伦理、公共健康等社会议题,提出构建可信、可扩展、普惠交通系统的研究方向 [78, 79]。