端到端自动驾驶:挑战与前沿

自动驾驶领域近来见证了采用端到端算法框架方法的迅猛增长，这些方法利用原始传感器输入生成车辆运动规划，而不是专注于诸如检测和运动预测等单个任务。与模块化流程相比，端到端系统从感知和规划的联合特征优化中受益。由于大规模数据集的可用性、闭环评估，以及自动驾驶算法在具有挑战性的场景中有效执行的日益增长的需求，这一领域已经蓬勃发展。在本综述中，我们提供了对250多篇论文的全面分析，涵盖了端到端自动驾驶的动机、路线图、方法、挑战和未来趋势。我们深入探讨了几个关键挑战，包括多模态、可解释性、因果混淆、健壮性和世界模型等。此外，我们还讨论了基础模型和视觉预训练的当前进展，以及如何在端到端驾驶框架内整合这些技术。为了促进未来的研究，我们维护一个活跃的知识库，其中包含与相关文献和开源项目的最新链接，地址为 https://github.com/OpenDriveLab/End-to-end-Autonomous-Driving。

1. 引言

传统的自动驾驶系统采用模块化部署策略，其中每个功能，如感知、预测和规划，都是单独开发并集成到车载系统中的。规划或控制模块负责生成转向和加速输出，在决定驾驶体验方面起着至关重要的作用。在模块化流程中，规划的最常见方法是使用复杂的基于规则的设计，但这在应对驾驶过程中出现的大量情况时往往效果不佳。因此，利用大规模数据并使用基于学习的规划作为一种可行的替代方案的趋势正在增长。我们将端到端自动驾驶系统定义为完全可微的程序，它以原始传感器数据为输入，并生成规划和/或低级控制动作作为输出。图1 (a)-(b) 说明了经典方法和端到端方法之间的区别。在传统方法中，每个组件的输出（如边界框和车辆轨迹）直接馈送到后续单元（虚线箭头）。相比之下，端到端范式跨组件传播特征表示（灰色实线箭头）。优化函数被设置为，例如，规划性能，并通过反向传播（红箭头）最小化损失。在此过程中，任务是联合和全局优化的。

在这份综述中，我们对这一新兴主题进行了广泛的回顾。图1提供了我们工作的概述。我们首先讨论端到端自动驾驶系统的动机和路线图。端到端的方法可以大致分为模仿学习和强化学习，我们对这些方法进行了简要回顾。我们介绍了用于闭环和开环评估的数据集和基准。我们总结了一系列关键挑战，包括可解释性、泛化、世界模型、因果混淆等。最后，我们讨论了我们认为社区应该采纳的未来趋势，以整合来自数据引擎、大型基础模型和车辆到一切等方面的最新发展。

1.1 端到端系统的动机

在经典的流程中，每个模型作为一个独立的组件并对应于一个特定的任务（例如，交通灯检测）。这样的设计在可解释性、可验证性和调试的便捷性方面是有益的。然而，由于模块间的优化目标不同，感知中的检测追求平均精度（mAP），而规划则以驾驶安全和舒适性为目标，整个系统可能无法与统一的目标保持一致，即最终的规划/控制任务。随着顺序过程的进行，每个模块的错误可能会累积并导致驾驶系统的信息损失。此外，多任务、多模型部署可能会增加计算负担，并可能导致计算资源的使用不够理想。与其经典的对应物相比，端到端的自动系统提供了几个优点。(a) 最明显的优点是它通过将感知、预测和规划合并到一个可以联合训练的单一模型中，以其简单性为特点。(b) 整个系统，包括其中间表示，都是针对最终任务进行优化的。(c) 共享基础架构增加了计算效率。(d) 数据驱动的优化具有提供潜在能力的可能性，仅通过扩展训练资源就能提高系统性能。请注意，端到端的范式不一定意味着一个只有规划/控制输出的黑箱。它可以像经典方法一样具有模块化设计，并具有中间表示和输出（图1（b））。实际上，一些最先进的系统[1, 2] 提出了模块化设计，但将所有组件一起优化以实现卓越性能。

1.2 路线图

图2描绘了端到端自动驾驶中关键成就的时间顺序路线图，每个部分表示一个重大的范式转变或性能提升。端到端自动驾驶的历史可以追溯到1988年的ALVINN[3]，其中输入是来自摄像头和激光测距仪的两个“视网膜”，一个简单的神经网络生成转向输出。Bojarski等人[8]设计了一个原型端到端CNN系统，用于模拟和道路测试，这在GPU计算的新时代重新确立了这个想法。随着深度神经网络的发展，在模仿学习[15, 16]和强化学习[4, 17, 18, 19]方面取得了显著进步。LBC[5]中提出的策略提炼范式以及相关方法[20, 21, 22, 23]通过模仿行为良好的专家的策略显著提高了闭环性能。为了增强由于专家和学习策略之间的差异而产生的泛化能力，一些论文[10, 24, 25]提出在训练期间聚合按策略数据[26]。

2021年对于端到端自动驾驶来说是一个重大的转折点。由于在一个合理的计算预算内，有各种传感器配置可用，人们开始关注将更多的模态和高级架构（如Transformers [27]）整合进来，以捕捉全局上下文和代表性特征，正如TransFuser[6, 28]和许多变体[29, 30, 31]中所做的那样。结合对模拟环境的更多洞察，这些先进的设计在闭环CARLA基准[13]上产生了显著的性能提升。为了提高自动系统的可解释性和安全性，像NEAT[11]、NMP[32]和BDD-X[33]这样的方法显式地整合各种辅助模块以更好地监督学习过程或利用注意力可视化。最近的工作优先生成关键安全数据[7, 34, 35]，预训练一个（大型）为策略学习量身定制的基础模型或基础架构[12, 36, 37]，并倡导一种模块化端到端规划哲学[1, 2, 38, 39]。同时，新的并且具有挑战性的CARLA v2[13]和nuPlan[14]基准已经被引入以促进这一领域的研究。

1.3 贡献

总结一下，本调查有三个关键贡献：(a) 我们首次提供了对端到端自动驾驶的全面分析，包括高层次的动机、方法、基准等。我们提倡的哲学不是优化单个模块，而是将算法框架作为一个整体来设计，其最终目标是实现安全舒适的驾驶。(b) 我们广泛研究了当前方法面临的关键挑战。在调查的250多篇论文中，我们总结了主要方面，并提供了深入的分析，包括关于泛化能力、语言引导学习、因果混淆等话题。(c) 我们探讨了如何采纳大型基础模型和数据引擎的更广泛影响。我们相信，这一研究方向及其提供的大规模高质量数据可能会显著推动这个领域的进步。为了方便未来的研究，我们维护一个活跃的知识库，不断更新新的文献和开源项目。

2 方法

本节回顾了大多数现有端到端自驾车方法背后的基本原理。第2.1节讨论使用模仿学习的方法，并详细介绍两个最流行的子类别，即行为克隆和逆向最优控制。第2.2节总结了遵循强化学习范式的方法。

3 基准测试

自动驾驶系统需要对其可靠性进行全面评估以确保安全性 [86, 87]。为了实现这一目标，研究人员必须使用适当的数据集、模拟器和指标对这些系统进行基准测试。本节描述了端到端自动驾驶系统大规模基准测试的两种方法：(1) 在模拟环境中进行在线或闭环评估，以及 (2) 在人类驾驶数据集上进行离线或开环评估。我们特别关注更有原则的在线设置，并为了完整性提供了离线评估的简要总结。

4 挑战

对于图1中描绘的每个主题/问题，我们现在讨论相关的工作、当前的挑战，以及有前景的未来趋势和机会。我们从4.1节开始讨论处理不同输入模态和表达式的相关挑战，然后在4.2节讨论视觉抽象以提高策略学习的效率。接着，我们介绍学习范式，如世界模型学习（4.3节）、多任务框架（4.4节）和策略蒸馏（4.5节）。最后，我们讨论阻碍端到端自动驾驶系统安全可靠的一般问题，包括4.6节的可解释性，4.7节的因果混淆，以及4.8节的鲁棒性和泛化能力。

5 结论

在这份综述中，我们概述了基本方法并总结了模拟和基准测试的各个方面。我们彻底分析了迄今为止的广泛文献，并强调了一系列关键挑战和有前途的解决方案。我们在最后讨论了未来拥抱迅速发展的基础模型和数据引擎的努力。端到端自动驾驶面临着巨大的机遇和挑战，其最终目标是构建通用智能体。在这个新兴技术不断涌现的时代，我们希望这份调查能作为一个起点，为这个领域带来新的启示。

成为VIP会员查看完整内容