随着大型语言模型(LLMs)和视觉基础模型(VFMs)的出现,利用大型模型的多模态AI系统有潜力像人类一样感知现实世界、做出决策和控制工具。近几个月来,LLMs在自动驾驶和地图系统中显示出广泛的关注。尽管潜力巨大,但对关键挑战、机会和未来应用于LLM驾驶系统的努力仍缺乏全面理解。在这篇论文中,我们对这一领域进行了系统性的研究。我们首先介绍多模态大型语言模型(MLLMs)的背景、使用LLMs的多模态模型开发以及自动驾驶的历史。然后,我们概述了现有的MLLM工具,用于驾驶、交通和地图系统,以及现有的数据集和基准测试。此外,我们总结了第一届WACV关于自动驾驶的大型语言和视觉模型研讨会(LLVM-AD)的工作,这是首个关于自动驾驶中LLMs的综述。为了进一步推动这一领域的发展,我们还讨论了在自动驾驶系统中使用MLLMs需要由学术界和工业界解决的几个重要问题。论文集可以在Awesome-Multimodal-LLM-Autonomous-Driving中找到。
大型语言模型(LLMs)最近获得了显著的关注,显示出在模仿类似人类的智能方面的显著潜力。这些进展激发了对多模态大型语言模型(MLLMs)[199]的热情,这些模型将LLMs的复杂推理能力与图像、视频和音频数据结合起来。模态对齐使它们能够以更高的熟练度执行各种任务,包括分类图像、匹配文本和对应视频以及语音检测。此外,[174] 证明LLMs可以处理机器人领域的简单任务,包括基本的逻辑、几何和数学推理,到复杂的任务,如空中导航、操纵和具体化的代理。然而,LLMs融入交通和自动驾驶车辆领域还处于开创阶段。将语言交流与全景图像、激光雷达点云和驾驶行为等多模态感官输入相结合,可以彻底改变当前自动驾驶系统的基础模型。 最近,更有能力的基础模型的出现使SAE L3驾驶自动化成为可能[28]。然而,多模态LLMs在自动驾驶中的集成并没有跟上这些进展,一个自然的问题是,基于LLM的模型如GPT-4、PaLM-2和LLaMA-2是否有潜力增强自动驾驶?图2为我们提供了一个很好的例子。不可否认,将LLMs整合到自动驾驶车辆行业可以带来车辆智能、决策和乘客互动方面的重大范式转变[30,31],提供一个更以用户为中心、适应性强和值得信赖的交通未来。 在自动驾驶的背景下,LLMs将在关键模块上带来变革性影响:感知、运动规划和运动控制[180]。在感知方面,LLMs可以利用外部API访问实时基于文本的信息源,如高清地图、交通报告和天气更新,使车辆获得对周围环境更全面的了解[30]。一个很好的例子是改进车载地图中的导航。LLMs可以处理实时交通数据,识别拥挤的路线,并提出替代路径,最终优化导航的效率和安全性[159]。在运动规划方面,LLMs通过利用它们的自然语言理解和推理[110]发挥作用。它们促进以用户为中心的沟通,并使乘客能够使用日常语言表达他们的意图和偏好。此外,LLMs还处理文本数据源,如地图、交通报告和实时信息,然后为优化路线规划做出高层决策[124]。
在运动控制的背景下,大型语言模型(LLMs)首先使控制器参数的定制化成为可能,以符合驾驶者的偏好,实现驾驶体验的个性化。此外,LLMs还可以通过解释运动控制过程的每一步提供透明度。多模态大型语言模型(MLLMs)代表了LLMs的下一个发展层次,将语言理解的能力与处理和整合多样数据模式的能力结合在一起。在自动驾驶的领域内,MLLMs的重要性是巨大且变革性的。装备了MLLMs的车辆可以处理来自文本输入的信息以及车载摄像头和其他传感器捕获的其他特征,使复杂交通场景和驾驶行为的学习变得更加容易。在自动驾驶之外,MLLMs还可以通过语音通信和用户偏好分析,显著增强个性化的人车交互。在未来的SAE L4-L5级自动驾驶车辆中,乘客可以在驾驶过程中通过语言、手势甚至目光来传达他们的请求,而MLLMs可以通过集成视觉显示或语音响应提供实时的车内反馈。
在我们将自动驾驶和高级建模领域桥接起来的追求中,我们联合举办了2024年IEEE/CVF冬季计算机视觉应用会议(WACV)上的首届大型语言和视觉模型自动驾驶研讨会(LLVM-AD)。该活动旨在增强学术研究人员和行业专业人士之间的合作,探索在自动驾驶领域实施多模态大型语言模型的可能性和挑战。LLVM-AD还发布了一个后续的开源真实世界交通语言理解数据集,催化了实际进展。
本文的主要贡献可以概括如下:
如图1所示,我们的综述论文旨在为自动驾驶的MLLMs提供全面概述,并讨论不断增长的趋势和未来方向。接下来的两个部分分别简要描述了自动驾驶和MLLMs的发展历史。第4节介绍了关于自动驾驶中MLLMs的当前已发表作品,涵盖感知、运动规划和运动控制。第5节介绍了利用MLLMs的相关自动驾驶行业应用。在最后三个部分中,我们总结了第一届WACV LLVM-AD研讨会的论文,并讨论了LLMs和MLLMs在自动驾驶领域的潜在研究方向。 自动驾驶的发展 自动驾驶的追求是一个逐步前进的旅程,它由愿景抱负和技术能力之间的持续互动所标志。自动驾驶的第一波全面研究始于20世纪末。例如,由卡内基梅隆大学发起的自主陆地车辆(ALV)项目利用来自立体摄像头、声纳和ERIM激光扫描仪的传感器读数执行诸如车道保持和障碍物避让等任务。然而,这些研究受限于传感器精度和计算能力的限制。
自动驾驶发展
在过去的二十年中,自动驾驶系统取得了快速的改进。2014年由汽车工程师学会(SAE)发布的分类系统定义了六个级别的自动驾驶系统。这种分类方法现已被广泛接受,并揭示了研究和开发进程的重要里程碑。深度神经网络(DNNs)的引入也发挥了重要作用。借助深度学习,计算机视觉对于解释复杂的驾驶环境至关重要,为诸如目标检测、场景理解和车辆定位等问题提供了最先进的解决方案。深度强化学习(DRL)在提升自动驾驶车辆的控制策略方面也发挥了关键作用,完善了运动规划和决策过程,以适应动态和不确定的驾驶条件。此外,传感器精度和计算能力的提高使得车辆上能运行更大、更准确的模型。随着这些改进,更多L1至L2级别的高级驾驶辅助系统(ADAS)如车道居中和自适应巡航控制现在已在日常车辆上可用。诸如Waymo、Zoox、Cruise和百度等公司也在推出具有3级或更高自主性的Robotaxis。然而,这些自动驾驶系统在许多驾驶边缘情况下仍然会失败,例如极端天气、糟糕的光照条件或罕见情况。
受当前局限性的启发,自动驾驶研究的一部分现在专注于解决自动系统的安全性和增强自动系统的安全性。由于深度神经网络通常被视为黑盒,可信AI旨在使系统更加可靠、可解释和可验证。例如,为自动驾驶系统生成对抗性的安全关键场景,以便系统更有能力处理低概率事件。另一种提高整体安全性的方法是通过车对基础设施和车对车通信。通过来自附近实例的信息,系统将具有改进的鲁棒性,并可以接收早期警告。与此同时,随着大型语言模型展示出其强大的推理和场景理解能力,正在进行研究以利用它们来提高自动驾驶系统的安全性和整体性能。
多模态大型语言模型
最近,多模态大型语言模型(MLLMs)已成为一个重要的研究领域。这些模型利用了大型语言模型(LLMs)的力量,如ChatGPT、InstructGPT、FLAN和OPT-IML,来执行跨越多种模态(如文本和图像)的任务。它们展现出了令人惊讶的新兴能力,例如基于图像编写故事和执行无需光学字符识别的数学推理,这在传统方法中很罕见。这表明了通往人工通用智能的潜在路径。MLLMs中的关键技术和应用包括多模态指令调整(Multimodal Instruction Tuning),它调整模型以跟随不同模态的指令;多模态上下文学习(Multimodal In-Context Learning),允许模型从多模态数据的上下文中学习;多模态思维链(Multimodal Chain of Thought),使模型能够跨不同模态保持思维链;以及LLM辅助视觉推理(LLM-Aided Visual Reasoning, LAVR),利用LLMs来帮助视觉推理任务。MLLMs更符合人类感知世界的方式,提供了比LLMs更友好的用户界面,并支持更广泛的任务范围。MLLMs的最新进展得益于GPT-4V的发展,尽管它没有开放的多模态界面,但已展示出惊人的能力。研究社区已经做出了重大努力,开发了功能强大的开源MLLMs,并展示了惊人的实际能力。
**多模态语言模型在自动驾驶领域 **
在自动驾驶行业中,多模态语言模型(MLLMs)有潜力理解交通场景,改善驾驶决策过程,并彻底改变人与车辆的互动方式。这些模型接受了大量交通场景数据的训练,使它们能够从地图、视频和交通规则等不同来源提取有价值的信息。因此,它们可以增强车辆的导航和规划能力,确保安全性和效率。此外,它们能够适应不断变化的道路条件,并具有与人类直觉非常相似的理解水平。
多模态语言模型在感知方面的应用 传统的感知系统通常仅限于识别一组预定义的特定对象类别,这限制了它们的适应性,并需要收集和注释新数据的繁琐过程以识别不同的视觉概念。因此,它们的通用性和实用性受到了削弱。相比之下,一种新的范式正在兴起,它涉及从原始文本描述和各种模态中学习,提供更丰富的监督来源。
多模态大型语言模型(MLLMs)由于能够通过文本分析来分析非文本数据(如图像和点云)而受到了显著关注。这些进展极大地提高了零样本和少样本图像分类、分割和对象检测。
开创性的模型如CLIP已经表明,通过训练将图像与标题匹配,可以有效地从头开始创建图像表示。在此基础上,Liu等人引入了LLaMa,它结合了视觉编码器和LLM,增强了对视觉和语言概念的理解。Zhang等人进一步扩展了这项工作,开发了Video-LLaMa,使MLLMs能够处理视频中的视觉和听觉信息。这代表了机器感知在整合语言和视觉模态方面的重大进展。
多模态语言模型用于规划和控制 在机器人学领域,语言在规划和控制任务中的使用已有悠久的历史,可以追溯到早期展示人机互动的自然语言词汇解析的使用[187],并且它已经被广泛研究用于机器人领域。关于这个主题存在广泛的综述性研究[104, 164]。已经被充分证明,语言作为非专业人员与机器人交流的有价值接口[82]。此外,通过基于语言的控制实现机器人系统对新任务的泛化能力已经在各种研究中得到证明[2, 66]。已经广泛研究了实现特定规划或控制任务或策略,包括基于模型的[5, 121, 153]、模仿学习[105, 155]和强化学习[47, 67, 116]。
由于多模态语言模型在零样本学习[167]、上下文学习[114]和推理[184]方面具有显著的能力,许多研究表明LLM(多模态语言模型)可以启用规划[152, 176]和通过文本描述来感知环境[157],以开发用户在机器人控制中的参与[174]。[81]通过文本完成和语义翻译的组合将自然语言命令分解为可执行操作序列,以控制机器人。SayCan [2]利用加权LLMs来生成合理的动作并控制机器人,而[62]使用环境反馈,LLMs可以发展内心的自言自语,增强了它们在机器人控制场景中进行更全面处理的能力。Socratic Models [202]使用视觉语言模型替代用于机器人行动生成的语言提示中的感知信息。[96]介绍了一种使用LLMs直接生成机器人执行任务的策略代码、指定反馈循环和编写低级控制原语的方法。
在自动驾驶方面,LLMs可以作为支持人机交互的桥梁。对于通用目的,LLMs可以是任务无关的规划器。在[60]中,作者发现预训练的LLMs包含了关于一致和可执行行动计划的可操作知识,无需额外的训练。黄等人[61]提出了使用LLMs将任意自然语言命令或任务描述转化为具体和详细列出的目标和约束。[185]提出将LLMs集成为决策解码器,以生成沿着自主车辆中的思维链提示的行动序列。在[31]中,作者展示了LLMs可以将驾驶员的任意命令分解为一系列中间阶段,其中包括实现目标的行动的详细描述。
同时,增强自动驾驶的安全性和可解释性也是至关重要的。多模态语言模型提供了理解环境及决策过程透明性的潜力。[77]显示,视频到文本模型可以帮助生成与下游控制器对齐的环境文本解释。Deruyttere等人[33]比较了基线模型,并显示LLMs可以识别与自然语言命令或描述相关的环境中的特定对象。为了提高模型的可解释性,Xu等人[193]提出了集成LLMs以生成关于计划行动的解释的方法。在[31]中,作者提出了一个框架,LLMs可以提供关于它们如何感知和对环境因素(如天气和交通状况)做出反应的描述。
此外,自动驾驶中的LLMs还可以促进控制器参数的微调,使其与驾驶员的偏好相一致,从而获得更好的驾驶体验。[150]通过引导参数矩阵适应将LLMs集成到低级控制器中。除了LLMs的发展,多模态语言-图像模型(MLLMs)也取得了巨大进展。MLLMs具有作为自动驾驶的通用和安全规划模型的潜力。处理和融合视觉信号,如图像,可以通过结合视觉线索和语言指令[69, 84]增强导航任务。在自动规划过程中,互操作性挑战一直是一个问题[23, 46]。然而,近年来在解决自动规划中的互操作性挑战方面取得了巨大进展,利用MLLMs在自动驾驶规划阶段的出色推理能力[22, 41]。在一个显著的方法中,陈等人[22]将矢量化的对象级2D场景表示集成到预训练的LLM中,通过适配器实现直接解释和全面推理各种驾驶场景。此外,付等人[41]利用LLMs进行推理,并将这种推理转化为可执行的驾驶行为,展示了LLMs在增强自动驾驶规划方面的多功能性。
此外,GPT-Driver [110]将运动规划重新构想为一个语言建模问题,并利用LLMs在运动规划中以自然语言描述高精度轨迹坐标及其内部决策过程。SurrealDriver [68]模拟了基于MLLM的生成驾驶代理,可以感知复杂的交通情景并生成相应的驾驶操作。[76]研究了在自动驾驶中使用文本描述与预训练的语言编码器进行运动预测的可能性。