自动驾驶的“大脑”——决策规划篇- 专知

会员服务 ·

自动驾驶的“大脑”——决策规划篇

专知出品

点击上方“专知”关注获取专业AI知识!

自动驾驶的“大脑”

——决策规划篇

中国人工智能系列白皮书

-智能驾驶2017

▌决策规划技术概述

智能汽车 ( Intelligent Vehicles) 是智能交通系统(Intelligent Transportation Systems) 的重要组成部分。智能汽车根据传感器输入的各种参数等生成期望的路径，并将相应的控制量提供给后续的控制器。所以决策规划是一项重要的研究内容，决定了车辆在行驶过程中车辆能否顺畅、准确得完成各种驾驶行为。

决策规划是自动驾驶的关键部分之一，它首先融合多传感信息，然后根据驾驶需求进行任务决策，接着在能避开可能存在的障碍物前提下，通过一些特定的约束条件，规划出两点间多条可选安全路径和，并在这些路径中选取一条最优的路径作为车辆行驶轨迹。决策规划按照划分的层面不同可分为全局规划和局部规划两种。全局规划是由获取到的地图信息，规划出一条在一些特定条件下的无碰撞最优路径；局部规划则是根据全局规划，在一些局部环境信息基础上，能避免撞上未知的障碍物，最终到达目标点的过程。

轨迹规划是智能汽车自主驾驶行为必须涉及到的一项研究，由于道路环境非常复杂，车辆系统本身是非完整系统，使得智能汽车在行驶过程中的运动轨迹规划问题变得复杂。传统的路径规划方法仅仅考虑了地形空间的几何约束，忽略了车辆的运动学和动力学特性，因而规划结果不一定是可行的，运动控制系统无法使得车辆准确得跟踪规划轨迹。近年来，国内外智能汽车的运动轨迹规划方法有了很大的改进，这些方法最大的改进就是考虑车辆实际行驶的环境条件并根据控制系统的需要，以生成最优的参考轨迹。

轨迹规划技术概述：路径规划问题最早出现在 20 世纪 60 年代末的人工智能机器人领域，特指考虑移动主体和障碍物之间的几何关系，找到一条不发生碰撞的静态路径，通常表示轮式移动机器人在笛卡尔坐标下位置和姿态的关系[21]。运动轨迹规划是在静态路径规划的基础上考虑时间因素和车辆的运动学、动力学约束条件，并根据车辆当前的位姿以及传感器收集到周围环境的状态信息，考虑智能汽车的内在约束条件( 如非完整约束) 和车辆的运动学、动力学约束条件对轨迹生成的影响，规划出可行的参考轨迹。最后将轨迹以控制量的方式供给到后续的控制系统，使得车辆可以沿着相应的轨迹行驶，避免碰撞。

▌决策规划技术结构体系

决策规划层是自主驾驶系统智能性的直接体现，对车辆的行驶安全性和整车性能起着决定性作用，以谷歌和斯坦福等为代表的众多企业和高校做出了大量研究。常见的决策规划体系结构有分层递阶式、反应式以及二者是混合式。

分层递阶式体系结构

分层递阶式体系结构是一个串联系统结构，如图 3-1 所示。在该结构中，智能驾驶系统的各模块之间次序分明，上一个模块的输出即为下一个模块的输入，因此又称为“感知-规划-行动”结构。当给定目标和约束条件后，规划决策就根据即时建立的局部环境模型和已有的全局环境模型决定出下一步的行动，进而依次完成整个任务。

图3-1决策规划-分层阶梯式体系结构

由于该结构对任务进行了自上而下的分解，从而使得每个模块的工作范围逐层缩小，对问题的求解精度也就相应的逐层提高，具备良好的规划推理能力，容易实现高层次的智能控制。但是也存在一些缺点：(1) 它对全局环境模型的要求比较理想化，全局环境模型的建立是根据地图数据库先验信息和传感器模型的实时构造信息，所以它对传感器提出了很高的要求，与此同时，存在的计算瓶颈问题也不容忽视，从环境感知模块到执行模块，中间存在着延迟，缺乏实时性和灵活性；(2) 分层递阶式体系结构的可靠性不高，一旦其中某个模块出现软件或者硬件上的故障，信息流和控制流的传递通道就受到了影响，整个系统很有可能发生崩溃而处于瘫痪状态。

反应式体系结构

与分层递阶式体系结构不同，反应式体系采用并联结构，如图 3-2 所示，每个控制层可以直接基于传感器的输入进行决策，因而它所产生的动作是传感器数据直接作用的结果，可突出“感知-动作”的特点，易于适应完全陌生的环境。其中，基于行为的反应式体系结构是反应式体系中最常用的结构。反应式结构最早于 1986 年由 Brooks，并成功应用于移动机器人[24]。其主要特点是存在着多个并行的控制回路，针对各个局部目标设计对应的基本行为，这些行为通过协调配合后作用于驱动装置，产生有目的的动作，形成各种不同层次的能力。虽然高层次会对低层次产生影响，但是低层次本身具有独立控制系统运动的功能，而不必等高层次处理完毕。

图3-2决策规划-反应式体系结构

反应式体系结构中的许多行为主要设计成一个简单的特殊任务，所以感知、规划和控制三者可紧密地集成在一块，占用的存储空间不大，因而可以产生快速的响应，实时性强。同时，每一层只需负责系统的某一个行为，整个系统可以方便灵活的实现低层次到高层次的过渡，而且如若其中一层的模块出现了预料之外的故障，剩下的层次仍能产生有意义的动作，系统的鲁棒性得到了很大的提高。但是设计方面也存在一些难点：

(1) 由于系统执行动作的灵活性，需要特定的协调机制来解决各个控制回路对同一执行机构争夺控制的冲突，以便得到有意义的结果；

(2) 除此之外，随着任务复杂程度以及各种行为之间交互作用的增加，预测一个体系整体行为的难度将会增大，缺乏较高等级的智能。

混合式体系结构

分层递阶式体系结构和反应式体系结构各有优劣，都难以单独满足行驶环境复杂多变时的使用需求，所以越来越多的行业人士开始研究混合式体系结构，将两者的优点进行有效的结合（如图 3-3），在全局规划层次上，则生成面向目标定义的分层递阶式行为；在局部规划层次上，生成面向目标搜索的反应式体系的行为分解。

车辆驾驶决策技术是实现自主驾驶的核心，不良驾驶决策将影响车辆自身安全、节能和舒适性，并造成外部交通流效率降低。国内外学者在基于环境信息、车辆状态等方面的车辆智能驾驶决策方法已取得了一些成果，能够在一定程度上满足复杂、动态的实际交通场景。

图3-3基于功能和行为分解的混合体系结构

▌决策规划系统的关键环节

智能驾驶决策规划系统的开发和集成基于递阶系统的层次性特征，可分为四个关键环节，分别是信息融合、任务决策、轨迹规划和异常处理。其中，信息融合，完成多传感器的数据关联和融合建立周边环境模型；任务决策，完成智能汽车的全局路径规划任务；轨迹规划，在不同的局部环境下，进行智能驾驶车辆的运动轨迹状态规划；异常处理，负责智能汽车的故障预警和预留安全机制。任务决策和轨迹规划分别对智能性和实时性要求较高。

传感信息融合

传感信息融合是将多个传感器的输出信息统一在车辆坐标系下，建立具有时间标记的数据关联和融合，以保证场景数据信息的连贯性和适用性。

智能驾驶汽车在环境感知方面，通常会使用到多种传感器来进行行驶环境数据的采集与分析，分为环境传感器如单目摄像头、立体摄像头、毫米波雷达、激光雷达、超声波传感器、红外传感器等，定位导航设备如 GPS 和北斗等，以及 V2X 车联网通信设备三种信息来源。智能汽车在复杂多变的路况下行进时，对周围信息的不确定性会使之处于危险之下，尤其是仅依赖于单一的环境传感器时。因此，使用多传感器对周围环境进行检测，利用数据融合，可以充分准确地描述目标物体的特征，并且减少二义性，提高智能驾驶汽车决策的准确性与鲁棒性。

数据融合技术可以认为是一种解决问题的工具，它包括对融合单元的理解以及对融合架构的设计两个方面。融合单元是指每一次数据处理到输出给决策层的整个部分，而融合架构则是进行数据融合的框架与模式。一个数据融合架构至少需要包括负责采集外部信息的感知框架，即传感器管理框架，以及负责数据处理的模型管理框架。其中，模型管理具体涉及数据匹配、数据关联、融合决策等部分。

数据融合具体技术中包括数据转换、数据关联、融合计算等，其中数据转换与数据关联在融合架构的实现中已经体现，而数据融合的核心可以认为是融合计算，其中有很多可选择的方法，常用的方法包括：加权平均，卡尔曼滤波，贝叶斯估计，统计决策理论，证据理论，熵理论，模糊推理，神经网络以及产生式规则等等。

任务决策

任务决策作为智能驾驶的智能核心部分，接收到传感感知融合信息，通过智能算法学习外界场景信息，从全局的角度规划具体行驶任务，从而实现智能车辆拟人化控制融入整个交通流。智能驾驶中任务规划结构如图 3-4 所示，描述了道路、车道和行驶三级任务分工，在道路级进行全局的任务规划，在车道级根据周边交通状况规划运动轨迹，行驶时根据前后车进行运动智能控制。交通流的复杂度借助信息传递影响规划任务的复杂程度，进而决定智能驾驶动作。不断实时的监督车辆运动状态和周围环境信息，当探测到当前道路阻塞时，要求重新规划任务，并做分解调整。

图3-4智能驾驶中任务规划结构

轨迹规划

轨迹规划是根据局部环境信息、上层决策任务和车身实时位姿信息，在满足一定的运动学约束下，为提升智能汽车安全、高效和舒适性能，规划决断出局部空间和时间内容车辆期望的运动轨迹，包括行驶轨迹、速度、方向和状态等[28]。并将规划输出的期望车速以及可行驶轨迹等信息给入下层车辆控制执行系统。轨迹规划层应能对任务决策层产生的各种任务分解做出合理规划。规划结果的安全性、舒适性是衡量运动规划层性能的重要指标。

异常处理

异常处理作为预留的智能驾驶系统安全保障机制，一方面是在遇到不平及复杂路面易造成车辆机械部件松动、传感部件失效等问题时，通过预警和容错控制维持车辆安全运行；另一方面是决策过程某些算法参数设置不合理、推理规则不完备等原因导致智能汽车在行为动作中重复出现某些错误并陷入死循时，能够建立错误修复机制使智能汽车自主的跳出错误死循环，朝着完成既定任务的方向继续前进，以减少人工干预来解决问题，这是提高车辆智能化水平的必需。

异常处理采用降低系统复杂性的原则，在程序正常运行使智能汽车陷入重复错误死循环时，进入错误修复状态，利用自适应错误修复算法产生新的动作序列直至智能汽车成功跳出错误死循环方转入程序正常运行状态。具体的技术方法是：建立专家系统，就智能汽车交叉口通行中出现的错误状态的表现与成因进行分析、定义与规则描述，制定判断动作失败的标准；研究自适应错误修复算法，对各错误状态的成因进行分类，并相应地制定调整策略，以产生新的动作序列。

决策规划技术方法

决策规划是智能汽车导航和控制的基础，从轨迹决策的角度考虑的，可分为全局规划和局部规划两个层次。其中，全局路径规划的任务是根据全局地图数据库信息规划出自起始点至目标点的一条无碰撞、可通过的路径。由于全局路径规划所生成的路径只能是从起始点到目标点的粗略路径，并没有考虑路径的方向、宽度、曲率、道路交叉以及路障等细节信息，加之智能汽车在行驶过程中受局部环境和自身状态的不确定性的影响，会遇到各种不可测的情况。因此，在智能汽车的行驶过程中，必须以局部环境信息和自身状态信息为基础，规划出一段无碰撞的理想局部路径，这就是局部路径规划。

全局规划方法

(1) 基于状态空间的最优控制轨迹规划方法

在状态空间进行轨迹规划的方法主要有最优控制方法。最优控制方法是指通过最优控制理论找到可行的控制量u*(t)，使得该系统能够沿着可行轨迹x*(t)行驶，该轨迹能够使得评价函数 J 最小。将评价函数和系统的状态方程联系起来，只有系统状态方程的约束条件满足，评价函数才能置零，求得可行的轨迹x*(t)。最优控制一般包括一到两个性能指标，对于控制变量的取值不受约束的情况，一般用变分法进行求解；对于控制量受约束的情况，一般用极小值原理进行求解。由于在最优控制方法中考虑时间的因素，因此生成的最优轨线是轨迹而不是路径，轨迹具有曲率连续的优点，且生成的轨迹中包括和时间相关的速度、加速度等轨迹特征值。对于终端时间自由问题的求解一般采用边界值问题求解方法 BVP（Boundary Value Problem)，这种求解方法需要对问题的解有初始估计值，如果初始估计值和结果数值相差较大会影响最终对问题的求解精度，同时为了容易求解，评价函数一般只包括一到两个评价指标，多个评价指标会使得问题的求解变得复杂。这就需要新的数值算法和最优控制求解方法相结合，以完成复杂问题的求解，使得最优控制方法能够更好得在轨迹规划中进行应用。

(2)基于参数化曲线的轨迹规划方法

B 样条曲线由一组称作控制点的向量来确定，这些控制点按顺序连接形成一个控制多边形，B 样条曲线就是逼近这个控制多边形。通过确定控制点的位置，可以控制曲线的形状。由于 B 样条曲线具有曲率连续的优点，在相邻曲线段的节点处曲率也是连续的[31]，且具有局部支撑性等特点，如果轨迹局部的约束条件不满足，可以通过调整相应控制点的方法来对轨迹进行修正，而不影响其它的轨迹段，具有应用性强的特点。β样条曲线是对B样条曲线的推广和发展，且具有B样条曲线的若干性质。

在此基础上还有基于多项式的智能汽车行驶轨迹规划方法，用六次项式来构造轨迹函数，根据周期的车辆状态和

可以得到。再根据跟踪误差最小的原则，就可以将六阶多项式的所有系数全部求出，根据这些系数就可以求出这个轨迹需要的控制量。多项式函数构造的轨迹也具有曲率连续的优点，但是如果轨迹约束条件不满足，必须对整条轨迹进行调整来满足约束条件的要求，计算量较大，使其应用受到限制。

(3)基于基于系统特征的轨迹规划方法

微分平坦法是基于系统特征的一种轨迹规划方法。微分平坦是指可以找到一组系统输出，使得所有状态变量和输入变量都可以由这组输出及其导数决定(不需积分)。不过该方法在规划轨迹的过程中没有考虑最大曲率和最大曲率变化率的约束条件。文献针对路径规划给定的路径函数信息，通过微分平坦的方法规划出系统输入及状态的时间相关的轨迹函数，在满足车辆侧向加速度约束的情况下使得系统的某性能指标最优。

局部规划方法

智能汽车进行局部路径规划（也可称之为实时路径规划），一般是指在有障碍物的环境中，如何利用自身传感器感知周边环境，并寻找一条从当前点到目标点点的局部行驶路径，使智能汽车在本次任务中能安全快速地到达目标位置。局部路径规划的方法主要包括以下两个关键部分：

（1）建立环境模型，即将智能汽车所处现实世界抽象后，建立计算机可认知的环境模型；

（2）搜索无碰路径，即在某个模型的空间中，在多种约束条件下，选择合乎条件的路径搜索算法。根据不同行驶环境的特点，智能汽车局部路径规划中的侧重点和难点都会有相应不同：

在高速公路中，行车环境比较简单但车速较快，此时对智能汽车控制精度要求很高，算法难点主要在于环境信息获取的位置精度和路径搜索的速度；

在城市半结构化道路中，道路环境特征性比较明显但交通环境比较复杂，周边障碍物较多，这就对智能汽车识别道路特征和障碍物的可靠性有较高要求，路径规划的难点主要在于车辆周边环境建模和避障行驶的路径搜索，特别是对动态障碍物方向和速度预测；

在越野环境的非结构化道路中，智能汽车所处的环境没有明显的道路边界，路面起伏不平，可能有大坑或土堆，这就对智能汽车识别周围环境，特别是地形地势有较高要求，路径规划的难点主要在于车辆可通行区域的识别。

(1)基于滚动时域优化的轨迹规划方法

基于滚动时域优化的路径规划算法[7]依靠智能汽车通过传感器实时探测到的局部环境信息，以滚动优化的方式进行在线规划。在滚动的每一步智能汽车根据探测到的局部信息，采用启发式的方法生成优化子目标，在当前时域内进行局部路径规划，然后实施当前策略(依局部规划路径移动一步)，随着时域的推进，不断取得新的环境信息，从而在滚动中实现优化与反馈的结合。还可以利用预测控制的基本原理，同时收集利用实时的局部环境信息，以滚动优化方式进行在线轨迹规划。该方法能够确保机器人在未知环境中安全地避开障碍物行驶，具有反应速度快的优点，能够迅速适应变化的环境，是一种有效实用的工具，但计算量相对较大。

(2)基于轨迹片段的运动规划方法

轨迹片段包含配平轨迹和机动轨迹。其中配平轨迹是系统处于相对平衡时所经历的轨迹，而机动轨迹则是系统从一个相对平衡跃入另外一个相对平衡所经历的轨迹。可以通过考虑车辆的运动学和动力学约束条件，基于最优控制原理的机动轨迹设计方法和随机采样法，实现基于轨迹片段连接的最优运动轨迹规划和快速运动规划。但是该方法计算较为复杂，使其在实际应用中受到限制。

▌路权分配技术

路权（Right of Weight，ROW）[32]，是指道路使用者依据法律规定，在一定的时间对一定的道路空间使用的权力。在智能驾驶中，路权可以用来描述满足车辆当前安全行驶所需的道路空间。

行驶中的智能汽车的路权是一个流动的扇形区，与本车的尺寸、速度、周边的车流量、前方拥有的空间密切相关，是本车速度的非线性函数，可用距离和角度来表示：

在驾驶过程中，人们会出现不同的驾驶行为，如超车、换道或者重新规划道路，智能汽车可以利用路权来描述换道三角形区域，如图3-5 所示，判断是否可以超车。例如，本车道内车间距较小，且没有变大趋势，路权受限，超出容忍；相邻车道的车间距较大，且没有变小趋势，路权允许；则从换道窗口中确定换道路径，执行换道。

图3-5换道三角形

路权与车速强相关，可分为期望路权和实际路权，当两者不一致时，就需要进行调节来解决冲突。自主驾驶是智能汽车在任意时刻对路权的检测和使用，多车交互是车群在任意时刻对路权的竞争、占有、放弃等协同过程。自主驾驶的不确定性，体现在车辆行驶中拥有的路权在不停地发生变化。

智能汽车编队，路权和本车的尺寸、速度、周边的车流量、前方拥有的空间密切相关，是本车速度的非线性函数。飙车占用了较大的路权，高峰时段停在车道上的故障车，也占用了较大的路权。如果在特定地段的所有车辆都匀速行驶，每辆车只占用最小路权，如公路火车。当智能汽车以编队结构进行行驶时，就是跟踪形式，此时智能汽车不需要对周边环境进行详细的关注，只需要紧跟前方车辆运动，保持合适的安全距离即可，无需过多的路权。

请登录专知，获取更多AI知识资料，PC登录www.zhuanzhi.ai或者点击阅读原文，注册登录，顶端搜索主题，查看获得对应主题知识等资料！如下图所示~