自动驾驶中的多智能体强化学习综述

强化学习（RL）是一种强大的序列决策工具，在许多具有挑战性的现实任务中取得了超越人类能力的表现。作为RL在多智能体系统领域的扩展，多智能体强化学习（MARL）不仅需要学习控制策略，还需要考虑与环境中其他所有智能体的交互、不同系统组件之间的相互影响以及计算资源的分配。这增加了算法设计的复杂性，并对计算资源提出了更高的要求。同时，模拟器对于获取现实数据至关重要，这是RL的基础。在本文中，我们首先提出了一系列模拟器的指标，并总结了现有基准测试的特征。其次，为了便于理解，我们回顾了基础知识，并综合了最近与MARL相关的自动驾驶和智能交通系统的研究进展。具体而言，我们考察了它们的环境建模、状态表示、感知单元和算法设计。最后，我们讨论了当前面临的挑战以及未来的前景和机会。我们希望本文能够帮助研究人员整合MARL技术，并激发更多关于智能和自动驾驶的深刻见解。关键词——多智能体强化学习、自动驾驶、人工智能

大规模自动驾驶系统近年来吸引了大量关注，并获得了来自工业界、学术界和政府的数百万资金支持【1】【2】。开发此类系统的动机在于用自动化控制器取代人类驾驶员，这可以显著减少驾驶时间和工作负担，提升交通系统的效率与安全性，促进经济发展。一般来说，为了检测车辆状态并生成可靠的控制策略，自动驾驶车辆（AVs）需要配备大量电子单元，如视觉传感器，包括雷达、激光雷达（LiDAR）、RGB-深度（RGB-D）摄像头、事件摄像头、惯性测量单元（IMU）、全球定位系统（GPS）等【3】–【5】。该领域的一个突出挑战是构建一个能够处理海量信息并将其转化为实时操作的稳健且高效的算法。早期的工作将这一大问题分为感知、规划和控制问题，并独立解决，这被称为模块化自动驾驶。 另一方面，作为一种强大的序列决策工具，强化学习（RL）可以通过奖励信号优化智能体行为模型。随着其发展，深度RL结合了RL和深度神经网络的优势，能够抽象复杂的观测并学习高效的特征表示【6】。在过去的代表性研究中，它在棋类游戏【7】【8】、电子游戏【9】【10】以及机器人控制【11】–【13】等领域表现出色，甚至在某些情况下超越了人类表现。对于自动驾驶而言，RL使端到端控制成为现实，即从车辆感知到车辆应该做什么的直接转换，就像人类驾驶员一样。尽管RL在自动驾驶车辆方面取得了许多显著成就，大多数相关工作仍是从单个车辆的角度出发，这导致了以自我为中心并可能具有攻击性的驾驶策略，可能会引发安全事故并降低交通系统的效率。

对于现实世界的交通系统，我们通常将其定义为多智能体系统（MAS），并旨在优化整个系统的效率，而不仅仅是最大化个体利益。在MAS中，所有智能体在共享的环境中做出决策并进行交互。这意味着每个智能体的状态不仅取决于其自身的行为，还取决于其他智能体的行为，使得环境动态呈现非静态和时间变化性。此外，根据任务设置，智能体可能相互合作或竞争。在如此复杂的场景中，手动编程预先行动几乎是不可能的【15】。得益于多智能体强化学习（MARL）的重大进展，交通控制【16】【17】、能源分配【18】【19】、大规模机器人控制【20】【21】以及经济建模与预测【22】【23】领域均取得了实质性突破。图1展示了这些相关研究主题的出版物数量。使用Dimensions数据库进行AI搜索【14】，我们搜索了包括多智能体强化学习、自动驾驶和智能交通在内的关键词。统计结果表明，学术界对这些问题高度关注，相关研究领域正处于快速增长阶段。为了加速进一步研究并帮助新研究人员快速入门，我们审阅了200多篇出版物、开源软件和代码库，然后系统地总结了现有成就和最新进展。

在此，我们提及其他近期的综述。在里程碑系列【25】–【27】中，作者简要总结了从历史到未来的蓝图，并简要介绍了自动驾驶中具有影响力的算法。还有许多综述【28】–【30】介绍了RL的基本理论和应用，并分析了其发表时最先进的（SoTA）自动驾驶算法，但它们主要关注单智能体学习。综述【31】的作者首次定义了分层结构的自动驾驶系统，并将其研究范围限定在局部运动规划。他们说明了车辆的动力学，并展示了采样和基于搜索的方法如何在数学上工作。然而，他们忽略了基于学习的方法的贡献。在最近的运动规划综述【2】中，研究人员全面调查了管道和学习方法，包括深度学习、逆向RL和模仿学习以及MARL。同样，详细的概述涵盖了轨迹预测中最新的分类法和方法论【32】。还有一些优秀的综述总结了AVs的MARL方法【1】【33】【34】。尽管如此，近年来研究人员在理论和应用方面取得了显著进展，并且在高级机器人模拟器中也取得了进展。作为在线RL训练的关键组成部分，模拟器决定了从模拟到现实的差距，即智能体学习的策略是否可以轻松地转移到物理机器人上。因此，为了使工程师和研究人员能够捕捉最新的进展并加速技术进步，我们全面总结了该领域的技术、挑战和前景。

总体而言，本文的主要贡献可总结如下：

我们提出了一系列基准的标准，详细分析和总结了先进模拟器、数据集和大规模自动驾驶竞赛的特征。
我们对最先进的MARL方法进行了分类，全面回顾了它们在该领域的技术改进、见解和未解决的挑战。
我们从相关领域捕捉了最新进展，并从多个角度深入探讨了基于MARL的自动驾驶的未来方向。
我们发布并维护了GitHub仓库1，以持续报告和更新MARL-based自动驾驶、智能交通系统和其他相关领域的最新研究。

在图2中，我们可视化了MARL的发展历程、数据集、模拟器、硬件和软件在自动驾驶及其他相关领域的发展。总体来说，随着大规模数据集和深度学习的发展，自动驾驶已从分层控制迈向数据驱动时代。随着先进模拟器的出现，基于RL的方法登上了舞台，随后新技术如大语言模型带来了更多的机遇。我们将在后文详细分析，本文的其余部分组织如下：在第二节中，我们首先描述了基准的指标。我们还分析了最先进的自动驾驶模拟器和数据集的特征。在第三节中，我们回顾了RL和MARL的基本概念、定义和开放问题。在第四节中，我们详尽介绍了自动驾驶领域最先进的MARL算法。具体而言，我们分析了它们的状态和动作设置、方法论见解和应用。在第五节中，我们指出了现有挑战并给出了可能的解决方案。在第六节中，我们捕捉了最新的进展，并提出了朝向更安全和智能的自动驾驶的有前途的方向。

II. 自动驾驶基准

强化学习（RL）通常需要大量的数据。一般来说，它需要与环境进行持续交互，以获得行为轨迹，从而帮助深度神经网络进行更准确的价值估计【35】【36】。然而，由于不确定的探索过程可能造成的经济损失，我们通常不会将RL策略直接部署在真实的机器人上。因此，在RL范式中，来自真实驾驶和高保真模拟器的数据被广泛用于基于RL的自动驾驶开发。在本节中，我们将介绍用于自动驾驶和交通系统中的大规模多智能体强化学习（MARL）的各种数据源。

最先进的方法论

本节将介绍用于多车辆系统运动规划和控制的最新多智能体强化学习（MARL）方法。我们无法涵盖所有相关研究，但本综述中选取的代表性技术均来源于发表在最具影响力的会议和期刊的报告。此外，我们鼓励研究人员在我们的网站上报告更多相关工作。 A. 集中式多智能体强化学习

在集中式训练与分散执行（CTDE）方案中，每辆车都有一个独立的策略网络，并设有一个核心计算机来合并和处理来自所有车辆的信息。首先，我们从所有车辆获取合并的观测，通过预定义的全局奖励函数评估系统状态，然后在完成信用分配后训练独立的策略。PRIMAL [154] 是路径规划集中式训练的里程碑式工作，它为每个智能体分配了一个独立且精心设计的参数共享的actor-critic网络，并使用A3C [155]算法进行训练。在这项工作中，研究人员说明了独立策略可能导致自私行为，而带有安全惩罚的手工设计奖励函数是一个不错的解决方案。此外，系统还提供了一个开关，使智能体可以从交互或专家示范中学习。强化学习与模仿学习的结合有助于快速学习，并缓解自私行为对整个系统的负面影响。在本文中，定义了一个离散网格世界，每个智能体的局部状态设为10×10方块的信息，并使用指向目标的单位向量来表示方向。为了验证在现实世界中的可行性，作者还在工厂模型中实现了PRIMAL系统。在MADDPG [24]中，作者提出了基于深度确定性策略梯度（DDPG）[156]的首个可泛化CTDE算法，并使用玩具多粒子环境作为测试平台。它提供了一个基本平台，具有简单的车辆动力学，用于在设计无关的场景下学习连续观测和动作空间中的连续驾驶策略，并吸引了许多杰出的后续研究者【21】【157】。同时，价值函数分解方法与CTDE方案的结合在智能体数量上的可扩展性方面表现更好，并减轻了策略训练中的非静态性影响，从而在大规模多智能体系统中提高了性能【116】【158】。这些方法已在Highway-Env [84][159]中无信号交叉路口等复杂场景中得到了验证。此外，专家示范有助于降低收敛到次优策略的风险【159】。为了验证在无地图导航任务中部署CTDE方法的可行性，Global Dueling Q-learning (GDQ) [160] 在MPE [24] 中为每个turtlebot3设置了一个独立的DDQN [161] 来训练策略并估计价值。此外，他们引入了一个全局价值网络，将每个智能体的价值网络输出组合起来以估计联合状态价值。事实证明，该方法比常规的价值分解方法更为有效。同时，研究人员还尝试将单智能体RL中的基本算法（如PPO [65]或SAC [66]）扩展到多智能体任务，并提供了许多重要的基线，如MAAC [162]和MAPPO [163]。特别是，MAPPO在大量基准测试中得到了全面验证，并提供了系统的超参数选择和训练指南。为了克服从模拟到现实的差距并将MAPPO部署到实际机器人上，开发人员在Duckietown-Gym模拟器中训练了一个用于跟随地面航点的策略网络。MAPPO策略网络采用了循环神经网络（RNN）[164]，用于回忆前一状态的知识，并为每辆车输出高层次的目标线速度和角速度。与大多数室内导航任务类似，光学跟踪系统捕获车辆的位置和姿态。通过线性化逆动力学，可以在域适应后获得车辆的低级执行命令。这项工作揭示了如何在实际机器人上部署CTDE方案，其工程经验对于未来的研究具有重要价值。 B. 独立策略优化

考虑到实际部署中的通信、带宽和系统复杂性等挑战，完全去中心化系统通过允许智能体独立操作而无需持续协调，减少了通信开销和带宽需求。此外，它更容易在通信基础设施有限或不可靠的环境中部署，降低了决策延迟，并简化了每个智能体的本地计算。这些因素使得去中心化的MARL成为现实世界多智能体应用中更实用且更具适应性的方法。近年来，独立策略优化（IPO）[165]获得了越来越多的关注，并提出了大量相关方法。同时，这些研究中所涉及场景的复杂性和智能体的规模也同步增加，反映出去中心化学习更符合现实世界中大规模自动驾驶的需求。为了在集中式方案中解决可扩展性问题，MAPPER [166]采用了基于A2C [155]算法的去中心化actor-critic方法。首先，占用地图的局部观测表示为包含静态场景、动态障碍物和A规划器[167]规划轨迹信息的三通道图像。这些三通道观测通过卷积神经网络（CNN）抽象为潜在向量，并与通过多层感知机（MLP）抽象的航点信息一起输入共享的全连接层。随后，两个独立的MLP分别输出动作概率和价值估计。此外，MAPPER在优化过程中使用了额外的进化算法来消除不良策略。与PRIMAL [154]相比，MAPPER在大规模场景中可以更快地学习并更有效地处理动态障碍物。另一种提高可扩展性的方法是G2RL [168]，这是一种适用于任意数量智能体的网格地图导航方法。同样，它利用A为每个智能体提供全局引导路径。同时，本地占用地图输入到本地DDQN [161]规划器中，以捕捉本地观测并生成纠正指令以避免动态障碍物。由于智能体之间无需通信，该方法无需考虑通信延迟，可扩展至任何规模。作为PRIMAL的继任者，PRIMAL2 [169]保留了相同的分层结构，即由A规划器生成全局路径，并由A3C和模仿学习指导的智能体训练。关键区别在于PRIMAL2采用了完全去中心化的训练方法，增强了其处理结构化和高密度复杂场景的灵活性。与MAPPER类似，它采用了11×11的观测范围，并将观测分为多通道图像输入。前四个通道包括静态障碍物、智能体自身的目标点、其他智能体的位置和其他智能体的目标点。第五到第八通道提供了A规划的本地路径，以及在观测范围内其他智能体在未来三个时间步长的位置。最后三个通道提供了走廊出口的X和Y坐标偏移，以及一个布尔状态，指示是否有其他智能体阻挡路径。更细致的观测输入使PRIMAL2能够有效解决高密度复杂占用网格中的智能体死锁问题，并生成比前代方法更短的路径。上述方法是为具有离散动作空间的结构化占用网格开发的，适用于结构化仓库和货运终端中的自动地面车辆。尽管与真实交通系统存在差异，这些方法仍然为后续工作提供了灵感。其他去中心化学习研究在更先进的连续基准测试上进行【24】【63】【70】。例如，在PIPO [21]中，研究人员利用图神经网络的置换不变性开发了一种端到端的运动规划方案。他们在MPE中定义了一个逐步扩大的连续场景，场景中有各种静态障碍物。在训练过程中，观察到的其他智能体状态的随机置换增强了actor-critic网络的特征表示。我们注意到还有许多优秀且具有代表性的去中心化训练方案，但我们将在其他子主题中对它们进行分类，并在后续章节中详细介绍。 C. 带有社会偏好的学习

尽管独立策略学习在许多任务中是可行的，但当多个智能体的利益发生冲突时，纯粹的自我中心的独立策略学习可能会失败，导致每个智能体都以自我为中心【20】。因此，一个重要的问题是如何平衡智能体的自私与利他行为。在图4中，我们给出了一个玩具示例，以说明社会偏好如何影响智能体的行为。如果智能体无法平衡其利他和自私行为，这两个智能体可能会发生碰撞或互相阻碍。因此，在策略学习中应该考虑社会行为和偏好【170】。为了找到社会偏好的数学表示，在早期工作中，研究人员首先提出使用三角函数来表示这种偏好。 D. 安全性和可信学习

安全性是部署自动驾驶系统的核心要素，也是首要任务，因为它直接关系到自动驾驶车辆（AVs）的可靠性和人们的生命安全。近年来，强化学习（RL）研究人员投入了大量精力，确保所学策略在探索过程中以及部署后不会引发安全问题。具体来说，受【172】启发，我们将现有的多智能体强化学习（MARL）安全标准和方法分为三类。首先，软安全保障涉及设计安全惩罚项，以减少危险行为的发生概率。通过精细调整的奖励，学习算法可以在其他性能指标的同时优先考虑安全性。然而，尽管软安全保障已被证明可以有效提高多智能体系统中的安全性能，但其局限性在于它依赖于奖励函数能够准确捕捉所有安全方面的假设，而这在复杂环境中往往具有挑战性。第二类是优化过程中发生的概率性保障。例如，一些最新的MARL算法在策略优化过程中利用拉格朗日约束【21】或安全阈值【173】【174】。本质上，这种方法改善了策略梯度，有助于避免危险的探索行为。然而，由于策略仍然表示为概率分布，因此我们无法为这种方法获得明确、可解释和稳定的安全边界。同时，现实世界驾驶中的关键安全约束是瞬时的和确定性的【175】。例如，避碰是一个依赖于系统当前状态的瞬时约束，而不是依赖于历史轨迹或随机变量。 E. 方法总结

如表II所示，我们收集了过去五年中关于户外自动驾驶、交通系统控制和结构化场景运输中多智能体强化学习（MARL）的代表性工作。同时，我们列出了它们的分类、最大智能体数量、使用的模拟器以及是否进行了现实世界的实验。在此需要注意的是，即使使用相同的模拟类型，动作设置也可能完全不同。例如，在PRIMAL和PRIMAL2中，智能体的动作设置为（↑, →, ↓, ←, ∗），代表二维网格地图中在水平和垂直方向上的四种移动以及停留在原地。相比之下，MAPPER为智能体增加了四个额外的对角移动（↗, ↘, ↙, ↖）。此外，我们发现许多研究采用预定义的高层次动作指令来简化任务。策略网络输出离散值，这些值映射到相应的预设动作，然后低级控制器执行这些动作，生成命令并将其发送到执行器。两个具体的例子是MFPG【182】和CPO-AD【183】。它们预设了低级单向控制映射，仅考虑自动驾驶车辆在一个方向上的移动。我们从该领域过去的研究中总结出三大趋势。首先，早期的研究由于算法多样性和模拟器性能的限制，更侧重于网格地图中的集中式MARL。然而，近期研究探讨了去中心化方法在更复杂的连续观测中的潜力。其次，只有少数研究进行了现实世界的实验，并且仅使用离散模拟器和少量智能体，这是未来工作可以改进的方面。第三，最新的研究采用了更复杂的设计，并整合了来自其他领域的更多方法，如数据压缩和机器视觉。 在本节中，我们将介绍多智能体强化学习（MARL）中的主要挑战。需要注意的是，集中式训练与分散执行（CTDE）和分散式训练与分散执行（DTDE）方案所面临的问题是不同的。尽管已经提出了一些可行的解决方案来解决这些问题，但这些方案仍然不是唯一的，也不完美。我们希望读者能够提前认识到这些问题的存在及其特性，从而更好地理解后续先进方法的动机和技术创新。