自动驾驶系统(ADS)正在通过减少人工干预、提高操作效率和增强安全性,革新交通运输。大语言模型(LLM)因其卓越的规划和推理能力,已被集成到自动驾驶系统中,以辅助驾驶决策。然而,基于大语言模型的单智能体自动驾驶系统面临三个主要挑战:感知能力有限、协作不足以及高计算需求。为了解决这些问题,近年来基于大语言模型的多智能体自动驾驶系统在提高智能体间通信与协作方面取得了显著进展。本文提供了关于基于大语言模型的多智能体自动驾驶系统的前沿综述。我们首先介绍相关概念的背景,然后根据不同的智能体交互模式对现有的基于大语言模型的方法进行分类。接着,我们讨论了基于大语言模型的智能体与人类的交互场景。最后,我们总结了该领域的关键应用、数据集和挑战,以支持未来的研究。 1 引言自动驾驶系统(ADS)正在重新定义驾驶行为,重塑全球交通网络,并推动技术革命(Yurtsever et al., 2020)。传统的自动驾驶系统主要依赖数据驱动的方法(详见附录 A.1),通常侧重于系统开发,而忽视了与环境的动态交互。为了增强与多样且复杂的驾驶场景的互动,智能体角色已被纳入自动驾驶系统中(Durante et al., 2024),并采用了强化学习(Zhang et al., 2024b)和主动学习(Lu et al., 2024)等方法。尽管取得了显著进展,这些方法在“长尾”场景中仍然存在困难,其中稀有但关键的驾驶情形——例如突如其来的障碍物——给模型性能带来了重大挑战。此外,它们的“黑箱”特性限制了可解释性,使得其决策难以信任。基于大语言模型(LLM)的单智能体自动驾驶系统有助于克服数据驱动方法的局限性(Wang et al., 2024a)。这些模型通过在庞大的多领域数据集上预训练,擅长知识迁移和泛化(Achiam et al., 2023),在零样本设置下的交通场景中表现出色,从而解决了长尾问题(Yang et al., 2023)。此外,诸如“通过人类反馈的强化学习”(RLHF)和“思维链”(CoT)(Zhao et al., 2023)等技术,增强了基于语言的互动和逻辑推理,使得LLM能够在人类似的实时决策中提供可解释和可信的反馈。例如,Drive-Like-a-Human(Fu et al., 2024)构建了一个闭环系统,包含环境、智能体、记忆和专家模块。智能体与环境交互,反映专家反馈,并最终积累经验。DiLu(Wen et al., 2024)用反思模块替代了人类专家,并集成了基于LLM的推理引擎来实现持续的决策制定。Agent-Driver(Mao et al., 2024)设计了一个工具库来收集环境数据,并利用LLM的认知记忆和推理来优化规划。然而,如图1所示,研究人员已识别出基于LLM的单智能体自动驾驶系统在复杂交通环境中的三大关键限制: ❶ 感知能力有限:LLM只能响应传感器输入,缺乏预测和泛化能力。因此,基于LLM的单智能体自动驾驶系统无法补充不完整的传感器信息,进而错过在复杂交叉路口等环境中关键的驾驶信息,如隐藏的行人或车辆(Hu et al., 2024c)。 ❷ 协作不足:单个基于LLM的智能体无法与其他车辆或基础设施协调,导致在需要多智能体交互的场景下(如车道合并或环形交叉口导航)表现不佳(Hu et al., 2021)。 ❸ 高计算需求:LLM包含数十亿个参数,这些方法需要大量独立的计算资源,使得实时部署在资源有限的车载系统中变得具有挑战性(Cui et al., 2023)。为了解决这些问题,基于LLM的多智能体自动驾驶系统使不同的智能体能够相互通信与合作,从而提高安全性和性能。首先,LLM通过允许智能体共享数据、扩展感知范围并增强复杂环境中遮挡物体的检测能力,从而提升了情境感知(Hu et al., 2024c)。其次,基于LLM的智能体之间的实时协调缓解了协作不足,使得在车道合并和环形交叉口导航等场景下能够实现联合决策,从而提高了驾驶操作的安全性和效率(Hu et al., 2021)。第三,LLM通过在智能体之间分配任务,优化了计算效率,减少了单个智能体的工作负担,使得在资源有限的系统中能够实现实时处理(Cui et al., 2023)。随着LLM能力的不断提升,它们在自动驾驶系统中作为智能驾驶助手的角色愈加重要。已有几篇综述文章关注了两个主要方面:i) 将LLM集成到数据驱动方法中(Yang et al., 2023;Li et al., 2023),以及ii) 特定类型LLM的应用,如基于视觉的(Zhou et al., 2024b)和基于多模态的(Fourati et al., 2024;Cui et al., 2024c)模型在自动驾驶系统中的应用。然而,目前尚无一篇综述文章系统地审视基于LLM的多智能体自动驾驶系统这一新兴领域。正是这一空白促使我们进行了一项全面的综述,旨在整合现有的知识,并为未来的研究和先进自动驾驶系统的开发提供指导。在本研究中,我们提供了一篇关于基于LLM的多智能体系统的综合综述。具体来说,第2节介绍了基于LLM的多智能体自动驾驶系统的核心概念,包括智能体环境和配置、智能体间交互机制以及智能体与人类的交互。第3节对多智能体自动驾驶系统的最新进展进行了结构化综述,将现有研究分为三大类交互模式:多车辆交互、车辆与基础设施的交互、以及车辆与助手的交互。随着智能体能力的不断提升,人车协同驾驶正在成为主流的自动驾驶范式,其中人类参与的角色越来越重要。人类通过提供指导或监督智能体的行为与智能体协作。因此,我们将人类视为特殊的虚拟智能体,并在第4节中探讨了人类与智能体的交互。第5节探索了各种应用,第6节汇编了全面的公开数据集和开源资源。第7节讨论了现有的挑战和未来的研究方向,第8节对本研究进行了总结。