完全自动驾驶汽车有潜力大幅减少车辆事故,并革命性地改变人们的出行方式及我们的货物运输方式。自动驾驶系统面临的许多主要挑战来源于众多需要与其他智能体复杂互动的交通情况。在可预见的未来,自动驾驶汽车将不得不与人类驾驶者和行人共享道路,因此不能依赖中央化的通信来应对这些互动场景。因此,自动驾驶系统需要能够与表现出不确定行为的未知智能体进行协商和响应。为了解决这些问题,大多数商业自动驾驶堆栈采用模块化方法,将感知、智能体预测和规划分为独立开发的模块。然而,完全分离预测和规划使得难以推理其他车辆对于控制自我车辆规划轨迹的响应。因此,为了维持安全,许多模块化方法在与其他智能体互动时不得不过于保守。理想情况下,我们希望自动驾驶汽车以自然而自信的方式行驶,同时仍然保持安全。
因此,在本论文中,我们将探索如何在自动驾驶中的高度互动和随机多智能体场景下,使用深度学习和离线强化学习来执行联合预测和规划。首先,我们讨论了在离线强化学习(RL)框架中使用深度学习进行联合预测和闭环规划的工作。其次,我们讨论了直接解决在随机多模态设置中使用学习模型进行规划的困难的工作。第三,我们讨论了如何通过使用基于变换器的交通预测模型作为我们的世界模型,来扩展到更复杂的多智能体驾驶场景,如在密集交通中合并。最后,我们讨论了如何借鉴离线模型为基础的RL,学习一个高层策略,选择一套离线预训练的驾驶技能进行有效控制,而无需额外的在线规划。
想象这样一个情景:一辆车在足球比赛后离开拥挤的停车场。大多数司机知道,在车辆挨着车辆的交通中,他们应该通过谨慎地主张自己的空间并推动前进来积极地行动。虽然这对于人类驾驶者来说是直觉的,但这些高度互动密集的场景对当前的自动驾驶汽车来说是一个主要挑战。在这些情况下,我们需要一个健壮的模型来预测其他智能体可能的行为,以及关键地,他们可能如何动态地响应我们自己的行动。
然而,许多自动驾驶系统将周围智能体的预测和自我车辆的运动规划分为两个独立的过程。这种模块分离限制了自我车辆预测其他智能体对其行动的反应的潜力,以及它如何能够动态适应周围交通的不同行为。因此,这些传统的分离预测和规划的方法在互动场景中容易导致次优的计划,例如在停车场出口或高速公路合并时,如果不考虑这些动态的相互作用的话。为了避免这些问题并统一预测与规划,自动驾驶汽车需要预测周围智能体将如何与自我车辆的潜在行动互动,并相应地以闭环方式调整自我车辆的计划。由于行人和交通的复杂多模态随机性,进行这些互动预测特别具有挑战性。其他智能体的轨迹往往强烈依赖于自我车辆直接无法获取的信息,如他们的预定目标或驾驶风格。根据给定的交通情况,相同的自我车辆轨迹可能会从周围的智能体那里得到截然不同的响应。例如,在合流到高速公路时,目标车道的车辆可能会为自我车辆让路、加速以为自我车辆腾出空间,或者无视自我车辆,这取决于它们的驾驶风格和自我车辆的行动。在这篇论文中,我们研究如何使用深度学习模型来解决这些问题,并在这些复杂的随机环境中进行联合预测和规划。