摘要—智能交通系统(ITS)在现代交通管理和优化中至关重要,显著提升了交通效率和安全性。近年来,扩散模型作为解决ITS中复杂挑战的变革性工具逐渐受到关注。本文对ITS中的扩散模型进行了全面综述,涵盖理论和实践方面。首先,我们介绍了扩散模型的理论基础及其主要变体,包括条件扩散模型和潜在扩散模型,强调它们在建模复杂多模态交通数据和可控生成方面的适用性。其次,我们概述了ITS中的主要挑战及扩散模型的相应优势,帮助读者深入理解ITS与扩散模型之间的交集。第三,我们从多个角度调查了扩散模型在ITS领域的当前应用,包括自动驾驶、交通模拟、轨迹预测和交通安全。最后,我们讨论了最先进的扩散模型技术,并强调了值得进一步研究的关键ITS研究方向。通过这一结构化概述,我们旨在为研究人员提供对ITS中扩散模型的全面理解,从而推动其在交通领域的未来应用。
关键词—智能交通系统,扩散模型,自动驾驶,交通模拟,交通预测,交通安全。
随着城市化的加速和人口的增长,对公共交通服务的需求不断增加,同时车辆数量也急剧上升。这些趋势逐渐暴露了当前交通系统中的若干问题,如交通拥堵和事故。随着计算机技术和交通系统的发展,许多城市越来越重视开发智能交通系统(ITS),这些系统利用先进技术和丰富的交通数据,实现高效、高质量和安全的交通管理。ITS涵盖多个领域,包括提升交通安全和效率的自动驾驶;支持各种策略建模、分析和测试的交通模拟;旨在减少拥堵和优化服务的交通预测;以及旨在降低事故率和提高整体安全性的交通安全。交通数据本质上是异构和多模态的,包括车辆和行人轨迹、驾驶图像或视频、由GPS位置派生的时空图,以及诸如交通规则和事故报告的文本数据。这些数据往往表现出复杂的时空依赖关系和不确定性。此外,数据可能会噪声、缺失或难以获取,尤其是个人GPS数据收集面临隐私问题。因此,处理这些多模态、复杂且常常不完美的数据集对ITS提出了重大挑战。在过去几十年中,研究人员采用了各种方法来应对ITS的挑战。例如,递归神经网络(RNN)通常用于建模时间关系,而卷积神经网络(CNN)则常用于捕捉空间结构。基于图的方法在提取交通网络中的空间相关性方面表现出优越的能力。然而,这些方法在处理噪声或不完整数据时往往存在局限性。相比之下,生成模型如生成对抗网络(GAN)和变分自编码器(VAE)在交通数据生成和填补任务中被证明是有效的。然而,GAN存在训练不稳定的问题,VAE则存在输出质量低的限制。作为一种强大的生成模型类别,扩散模型具有易于训练、生成性能增强、可控生成和多模态能力等优点。迄今为止,扩散模型已广泛应用于各种视觉任务,并在如Sora等应用中展现出良好前景。受到这些发展的启发,越来越多的ITS领域研究人员开始采用扩散模型来解决ITS中的各种挑战。因此,起源于图像处理和计算机视觉的扩散模型,现已被应用于各种交通任务,从自动驾驶、交通模拟到交通预测和交通安全。正如图1所示,扩散模型适用于处理各种交通数据,能够基于任务特定条件或无条件方法应对多种交通任务。关于ITS的综述已有许多,同时ITS领域内的特定技术也得到了关注。然而,目前尚缺乏针对ITS领域扩散模型的综合性综述。为填补这一空白,本文提供了关于ITS中扩散模型的详细文献回顾。首先,我们概述了扩散模型如何作为强有力的工具在各种交通任务中崭露头角。具体而言,我们介绍了扩散模型的理论基础,以及扩展其在ITS中特定任务应用的条件扩散模型和潜在扩散模型。其次,我们考察了ITS中的关键挑战及扩散模型的相应优势。第三,我们调查了扩散模型在ITS领域的应用,如自动驾驶、交通模拟、交通预测和交通安全。最后,我们展望了ITS中扩散模型的未来研究方向。我们的目标是缩小扩散模型与交通研究社区之间的差距,促进跨学科合作,推动扩散模型在交通领域的应用。
总之,本文的主要贡献包括:
据我们所知,这是首个专注于扩散模型在ITS应用的综合文献综述。
我们系统介绍了扩散模型如何通过处理多模态和复杂交通数据成为各种交通任务的强大方法,并探讨了ITS中的关键挑战及扩散模型的相应优势。这一分析为读者提供了对ITS与扩散模型交集的深入见解。
我们提供了关于ITS领域扩散模型的全面且最新的文献回顾,重点关注自动驾驶、交通模拟、交通预测和交通安全等应用。通过多角度分析这些应用,我们旨在为来自不同ITS子领域的研究人员提供最新扩散模型进展的清晰高效概述。
我们讨论了扩散模型中的前沿技术,并强调了值得进一步探索的ITS中扩散模型的关键研究方向。 **
**扩散模型在自动驾驶中的应用
自动驾驶是智能交通系统(ITS)最具变革性的方面之一。将自动驾驶汽车(AVs)纳入ITS可以显著减少交通拥堵,提高安全性,并提升交通网络的整体效率。然而,完全实现驾驶的自主性面临重大挑战,因为现实世界的驾驶环境复杂多变,充满不可预测的事件、多样的道路条件和不同的交通行为。应对这些挑战需要先进的模型,能够处理不确定性,从海量数据中学习,并安全可靠地实时决策。扩散模型以其建模复杂分布、精细化数据和生成高质量预测的能力,在推动自动驾驶能力方面发挥着关键作用。然而,它们的计算效率不足带来了挑战。因此,许多研究致力于加速这些模型,以满足实时要求。本节将探讨扩散模型在自动驾驶各个方面的应用,包括感知、轨迹预测和规划。通过利用扩散模型的优势,研究人员旨在提高AV的整体性能和安全性,使其更善于应对现代道路的复杂性。
A. 感知
自动驾驶系统中的感知技术使自驾车辆能够感知和理解其环境。然而,传感器数据常常受到恶劣天气、光照条件和其他因素的影响,导致噪声并给感知带来挑战。随着计算机视觉领域中扩散模型的快速发展,许多研究者开始关注它们在自动驾驶感知中的应用。对扩散模型的兴趣日益增加,主要是由于它们在多种条件下增强传感器数据的清晰度和质量的能力,以及在感知中建模不确定性的能力。通过利用这些优势,研究人员旨在增强目标检测、语义分割和目标跟踪等感知任务,从而为更安全、更可靠的自动驾驶汽车做出贡献。接下来,我们将回顾扩散模型在这些感知任务中的最新进展。
目标检测: 目标检测涉及在图像中定位和大小化物体。最近的进展引入了扩散模型来提高检测精度。例如,Chen等人首次将二维目标检测重新定义为基于相应图像的去噪扩散过程,将嘈杂的边界框转化为精确的物体框。该模型显示出极好的灵活性,使得在推断期间可以动态调整框的数量并进行迭代评估。此外,Wang等人提出了一个开创性的框架,将扩散模型与感知模型结合,以提高数据生成质量和感知能力。该框架利用感知相关属性作为条件,并在图像生成过程中采用感知相关损失作为监督方式,从而生成符合特定感知标准的图像,提升下游任务如目标检测的表现。
语义分割: 语义分割涉及将图像中的每个像素分类为预定义类别。鸟瞰视图(BEV)感知在自动驾驶的语义分割中具有重要意义。最近的研究利用扩散模型来增强BEV感知。Zhou等人首次应用条件扩散模型去噪和精炼BEV特征,显著改善了BEV语义分割和三维目标检测。具体而言,三个BEV特征作为扩散模型的条件,使得逐步去噪,增强了物体边界和形状等细节。除了BEV特征条件外,图像特征和文本也被用作语义分割任务的条件。Ji等人提出了DDP(噪声到地图方法),该方法通过图像特征逐步去除高斯分布中的噪声,生成视觉感知。DDP以其动态推断能力和对感知不确定性的自然理解而突出。此外,DDP易于推广到大多数密集视觉感知任务,而无需任务特定设计。受文本到图像扩散模型的生成语义启发,Zhao等人提出了VPD框架,利用预训练的文本到图像扩散模型进行视觉感知任务。通过用文本输入提示去噪解码器,并用适配器精炼文本特征,VPD将视觉内容与文本提示对齐,并利用交叉注意图进行指导。这项工作表明,预训练的文本到图像扩散模型可以有效适应下游视觉感知任务,架起生成模型与视觉感知之间的桥梁。
目标跟踪: 目标跟踪涉及在视频中定位一个或多个目标,维护它们的身份,并跟踪它们的轨迹。Chen等人通过提出静态和动态摄像机视角数据增强(SVA和DVA)和组软最大模块,解决了多目标跟踪数据集中轨迹长度不平衡的问题。DVA采用条件扩散模型改变场景背景,帮助网络更加关注行人特征。这种方法有效减轻了长尾分布的影响,提高了跟踪系统的有效性。此外,Luo等人提出了一种噪声到跟踪框架,将目标检测和关联共同制定为一贯的去噪扩散过程,从配对噪声框到配对真实框,确保检测与跟踪之间的一致性。Xie等人则提出了一种新颖的噪声到目标跟踪范式,采用基于点集的去噪扩散过程进行动态和精确的目标定位,提供了更优的自我校正和外观变化处理能力。这种方法还简化了后处理,支持实时跟踪能力。 1. 感知数据生成: 最近的研究突显了扩散模型在合成图像及其对应注释方面的有效性。Wu等人集中在语义分割上,利用文本引导的预训练扩散模型生成带有像素级语义掩模注释的合成图像。在此基础上,Wu等人提出了一种数据集生成模型,利用预训练扩散模型学习的知识生成多样的感知注释。该模型强调一个统一的感知解码器,可以用最少的人为标注数据进行训练,生成与各种感知注释(如深度、分割和人体姿态估计)配对的高保真图像。三维点云数据作为另一种感知数据形式,也在生成建模方面取得了显著进展。一些研究将扩散模型应用于三维点云的生成。Luo等人引入了一种新颖的生成模型,将三维点云生成视为反向扩散过程。该模型以形状潜变量为条件,展示了在生成高质量、逼真的三维点云时的灵活性和鲁棒性。在此基础上,Sun等人通过利用[96]中设计的扩散模型作为对抗点云净化的基础模型,解决了三维点云识别模型对对抗攻击的脆弱性。
轨迹预测涉及使用交通参与者在给定场景中的过去状态来预测其未来状态。主要挑战包括未来行为的不确定性和多模态性、交通参与者之间的复杂互动,以及路面几何等环境影响。近年来,扩散模型作为轨迹预测的有前途的方法,因其能够捕捉人类和驾驶行为的内在不确定性而受到关注。此外,扩散模型能够灵活地整合地图信息、约束和其他相关因素。 1. 人类轨迹预测: 为了应对人类轨迹预测中不稳定训练和不自然轨迹的挑战,Gu等人提出了运动不确定性扩散(MID)。该方法首先利用扩散模型将轨迹预测转化为反向扩散过程,通过调整参数化马尔可夫链的长度,在预测多样性和确定性之间取得平衡。然而,尽管MID表现出色,其在100个扩散步骤下的17秒运行时间对于自动驾驶系统的实时应用并不实用。继此开创性工作之后,许多后续研究集中于扩散模型在轨迹预测中的应用。为了解决耗时问题,Mao等人引入了可训练的跳跃初始化器,以绕过多个去噪步骤,实现实时预测。他们采用了两阶段训练策略:第一阶段训练一个类似于MID的去噪模块,第二阶段则使用冻结的去噪模块优化跳跃初始化器。在推理期间,跳跃初始化器允许去噪直接从最后几个步骤开始,从而显著减少计算时间。随后,Bae等人提出了一个统一模型SingularTrajectory,介绍了一种自适应锚机制,并利用基于扩散的预测器通过级联去噪过程增强原型路径。此外,自适应锚也类似于[74]中的良好初始化器,加速了去噪过程。Liu等人通过两个扩散过程将轨迹预测的不确定性解耦为意图不确定性和动作不确定性。他们还引入了PriorNet模块来估计先前的噪声分布,减少扩散步骤,从而将推理时间减少三分之二。另一项研究LADM将轨迹预测与数据驱动模型相结合,设计了一种新的扩散模型,用于获取从历史轨迹中推断出有意义的先前路径。 1. 车辆轨迹预测: 车辆轨迹通常受物理规则和约束的支配。Jiang等人使用压缩轨迹表示法,利用PCA基础的潜在扩散模型进行多代理联合运动预测。该方法在考虑目标状态及其环境限制时,动态生成代理之间的交互。研究人员将车辆的运动表示为一系列潜在轨迹,并利用多个扩散步骤生成候选轨迹,通过无关背景的反向扩散过程与真实数据相匹配,以此减少与真实世界的不一致性。通过利用多个代理的状态与目标目标之间的复杂交互,本文在实现安全和高效的车辆轨迹预测方面开辟了新的思路。
在自动驾驶系统中,规划和决策是关键组成部分。规划涉及根据车辆的当前状态和环境信息生成安全和舒适的轨迹,而决策则需要在考虑最终目标、环境、交通规则的基础上选择最佳的高层次行动。扩散模型在增强这些组件方面展现出潜力,尤其是在提高泛化能力和灵活整合其他算法方面。 1. 机器人中的规划与决策: 扩散模型可以与运动规划方法灵活结合,例如强化学习或轨迹优化算法。Mao等人将扩散模型引入了路径规划问题,利用其在大规模环境中的高效性。同时,Fu等人通过结合深度强化学习和扩散模型设计了一种动态规划框架,增强了对复杂环境中目标选择的适应能力。研究结果表明,扩散模型有效提升了机器人自主决策能力,为复杂环境中的规划与决策奠定了基础。 1. 自动驾驶中的规划与决策: 扩散模型已被应用于优化自动驾驶中的规划过程,提升规划性能,并通过生成多视角未来状态视频,增强安全性。具体而言,Bai等人提出了一种结合扩散模型与传统优化算法的混合规划策略,实时生成安全、平滑的行驶轨迹。这种策略有效提高了车辆在复杂交通场景中的决策能力,并减少了决策时间。此外,Chen等人探讨了扩散模型在决策中的应用,通过生成候选动作分布,优化控制策略,为决策过程引入了更多的灵活性和鲁棒性。