UC Berkeley博士论文《自动驾驶汽车安全高效的自适应预测和规划》

2022 年 4 月 6 日 专知

1.1 背景

自动驾驶汽车 (AV) 提供了几个潜在的好处，包括减少交通事故的数量、减少在交通中花费的时间，以及提高那些不能开车的人的机动性。在过去的十年里，自动驾驶汽车已经有了重大的进展，在凤凰城、旧金山和匹兹堡等城市进行了测试 [28]。在某些有限的情况和地理位置中，自动驾驶汽车能够在没有人类后备驾驶员的情况下驾驶 [48]。

尽管取得了这些进步，但广泛采用 AV 技术尚未实现。造成这种情况的一个主要原因，除了技术差距之外，是由于对 AV 技术缺乏信任。自动驾驶汽车教育合作组织 (PAVE) 在 2020 年进行的一项调查显示，48% 的美国人不会“乘坐自动驾驶的出租车或拼车”。此外，只有 58% 的参与者认为“十年后会出现安全的自动驾驶汽车”，这表明目前对自动驾驶汽车技术缺乏信任 [5]。这项调查表明，即使自动驾驶汽车具有显着的社会效益，如果没有技术利益相关者的接受和信任，这些效益也无法实现。

这些利益相关者不仅限于坐在 AV 内的乘客，还包括其他道路使用者，如最近的行人、骑自行车的人和人类司机。在这些道路上，自动驾驶汽车必须能够无缝集成到混合交通中，平衡安全和效率目标，并符合人类对规范驾驶员行为的期望。

然而，这并不是一个简单的问题，因为与 AV 相比，人工驾驶车辆的策略和特性不同。特别是，自动驾驶汽车充当严格遵守交通规则并寻求以优化由旅行时间、乘客舒适度和燃油效率等因素组成的目标的方式。这与灵活地遵循交通规则并且有限理性的人类代理形成对比，他们选择实现驾驶目标但可能不是最优的行动。例如，人类表现出的驾驶行为，如超速、急速驾驶和尾随，这些行为在旅行时间和燃油效率等目标方面并不是最佳的。这种驾驶行为的错位导致两个代理都无法正确预测另一个代理会做什么，这可能导致交通流量效率低下和潜在的事故[61]。

为了弥合差距，研究集中在人类驾驶员建模上。这涉及使自动驾驶汽车以与人类驾驶汽车类似的方式驾驶，但也改进了人类驾驶汽车的预测，以实现更有效的交互。

关于前一点，由于大规模驾驶数据集的可用性，最近的工作试图从演示中学习人类行为。在 [95] 中，应用驾驶模型来预测交叉路口的离散动作（直行、停车、左转、右转），并基于伯克利 DeepDrive 视频数据集预测车道跟随的角速度输入。类似地，在 [6] 中，驾驶演示用于训练基于来自车载感知堆栈的已处理场景表示的驾驶模型。确定仅在大型数据集（3000 万个实例）上进行训练不足以确保在未见场景中的可靠性。通过增加正则化的训练损失和合成边缘案例示例（例如，横向偏移中的扰动）来减少泛化误差。然而，这证明了数据驱动模型的一个关键限制——特别是，列举在驾驶过程中可能出现的边缘情况以减少泛化误差是极其困难的。

数据集对于预测路上的其他人类代理也很重要。早期的研究通过观察注意力和分心等模式下的驾驶行为并构建相应的模型，在短时间内对个体驾驶员进行建模[83]。例如，[71] 开发了一个基于凸马尔可夫链的驾驶员模型，以捕捉人类驾驶员的随机性，并能够对安全性进行概率查询。最近，包括 [85,13,42] 在内的大规模预测数据集专注于长期运动预测，并提供带注释的场景上下文以及演员在各种交通场景中所采取的轨迹。这些数据集的优势在于无需预先指定的特征选择和/或手动调整，即可学习复杂的数据驱动的驱动程序模型，从而对语义上下文进行更细致的解释。例如，数据集可用于通过逆向强化学习来学习人类驾驶员奖励函数，这可以被纳入交互感知规划（例如[73, 72]），并使用形式化方法分析奖励错误指定的鲁棒性 [70]。相比之下，经典方法通常需要特征选择和调整的专业知识。例如，像智能驾驶员模型 [87] 这样的交通流模型需要了解模型参数，如最大纵向加速度、最小间距和车辆之间的时间间隔等。类似地，卡尔曼滤波器和可达集等方法需要对车辆动力学进行详细建模，以及干扰协方差或界限识别[7, 33]。

让单一模型在不施加较大不确定性界限的情况下捕获各种异质的人类驾驶员和交通环境具有挑战性。虽然数据驱动的方法可以通过减少预测错误和更好地对潜在概率分布进行建模来提供帮助，但它们在新情况下仍然容易出错，并且不能在所有情况下都盲目信任。因此，解决精确和准确预测之间的权衡，如 [26] 中所述，是成功部署任何预测框架的关键设计参数。

当与在混合环境中运行的 AV 的控制设计相结合时，这种权衡尤其重要。通过鲁棒和随机控制等方法，存在结合不确定性和干扰的原则方法[14]。随着不确定性边界的增长，自动驾驶汽车的可行控制行为集开始缩小，通常最佳解决方案只是放慢速度，直到不确定性得到解决。这可能导致过于胆小、规避风险的 AV 不符合人类代理的期望，从而加剧了上述人类与 AV 错位的问题。因此，确定如何根据观察到的行为调整不确定性或纳入自适应策略对于找到安全有效的 AV 行为的最佳点至关重要。

1.2 提纲和贡献

我们看看如何在这篇论文中解决这些问题。提供以下贡献:

第 2 章着眼于在给定候选目标的情况下提供名义多模态预测的问题。选择的特定领域是停车场，它在紧凑的驾驶区域中具有许多交互作用。我们描述了停车行为数据集的生成，然后详细介绍了一个两阶段预测架构来估计意图（即停车位）和轨迹执行。与传统的基于模型的方法相比，这显示了用数据驱动的多模式预测来表示人类驾驶员行为的好处。

第 3 章将第 2 章的结果扩展到基于集合的多模态预测，其中生成了轨迹上的连续概率分布。使用 nuScenes 和 Lyft 5 级预测数据集，我们展示了上下文感知、数据驱动、多模态预测在预测驾驶员行为方面的优势，与传统方法相比，它具有改进的对数似然性和改进的集合精度。然后，我们探索如何将此类预测纳入置信度感知框架中，该框架可以根据预测误差在线调整不确定性。我们通过在 CARLA 模拟器中与交通路口的目标车辆进行模拟交互，展示了这种自适应置信度方法在避免碰撞方面的好处。

最后，第 4 章考虑了处理不确定预测的替代框架。不是通过自适应置信水平来调整不确定性，而是提出了一种反馈策略方法来提供灵活的行为，这些行为取决于目标车辆行为的未来测量。与传统方法相比，这种方法减少了保守性，传统方法必须选择单个控制输入序列来满足所有可能的目标车辆行为。在 CARLA 模拟器中的交通路口评估反馈策略方法的好处。结果表明，与开环基线方法相比，我们的方法可以提高移动性、舒适性和效率指标。