清华李升波教授：强化学习，让自动驾驶汽车自我进化，越开越好

2022 年 7 月 29 日 THU数据派

‍

  
  
    
   
   
     
    
    
      
     
     
       
      
      
        
       
       
          
          来源：智源社区 
         
      
      
        
     
     
       
    
    
      
   
   
     
  
  
    
  
  
    
   
   
     
    
    
      
     
     
       
      
      
        
       
       
          
            本文为约8742字，建议阅读6分钟 
           
           本文介绍 
           了清华大学车辆与运载学院李升波教授在2022年北京智源大会自动驾驶论坛上分享的题为《混合型强化学习及其高级别自动驾驶应用》的主题报告。

2022年北京智源大会自动驾驶论坛，清华大学车辆与运载学院李升波教授分享了题为《混合型强化学习及其高级别自动驾驶应用》的主题报告。该报告主要探讨了如何将强化学习应用于自动驾驶汽车的问题，目标是让自动驾驶汽车具备自我学习、自我进化的能力，即与人类驾驶员的开车学习过程类似，达到越学越好、越开越好的特点。该报告首先介绍了自动驾驶与强化学习结合的必要性，分析了现有强化学习算法的特点与不足，介绍了所提出的集成式决控（IDC）架构和混合策略梯度（MPG）算法，最后以实车测试结果为例，介绍了这一技术方案应用过程的成功经验与下一步发展方向。

Part 1: 自动驾驶选择强化学习的原因

智能化是汽车新四化变革的重要方向之一，也是人工智能（AI）的重要应用领域，受到学界和业界的广泛关注。目前，L1和L2级别的智能汽车已经实现商业化应用。具有更高智能性、接近人类驾驶水平的高级别自动驾驶汽车，是该领域每一个企业、每一个团队追求的理想和目标。因为城市道路交通场景中道路结构的高度复杂性、交通流的高度动态性以及交通参与者的高度随机性等，L3和L4级的自动驾驶功能实现具有挑战性，这需要更加安全可靠的环境感知能力和更加智能、实时、高效的决策控制能力。

然而当前自动驾驶汽车智能水平还有待进一步提高。一个有趣的例子是很多高级哺乳动物，比如说人类的好朋友“宠物狗”也可以进行一定程度的车辆驾驶。这些都是真实的“宠物狗”开车视频，可以看出，聪明的动物们是可以做到车道保持、弯道转向等功能的。因此，如果以驾驶过程的自主性和适用性作为衡量指标，现有自动驾驶系统的水平可能还不及宠物狗的应对能力。这几乎是目前大多数自动驾驶智能水平的真实状态。

如何判断自动驾驶汽车的智能水平呢？

从生物大脑入手观察是一个不错的视角。通常的观点是，生物智能性的高低和其大脑神经元的数量密切相关。若以深度神经网络作为智能性的承载体，一个智能体（Agent）的智能性和人工神经网络的规模也有直接关系。目前，用于自动驾驶汽车的神经网络规模大概达到了百万或千万级别，但这仍然远远低于典型哺乳动物的神经元数量。更不要说，单个机器神经元的能力远远低于人类神经元的能力。所以，现有的自动驾驶技术远没有达到人类的驾驶智能，仅适用于简单稀疏交通工况，还不能应对城市复杂道路交通场景，并且对未知场景的适应能力也存在一定的不足。

近年，强化学习作为一类自主进化型学习方法得到了普遍关注。一个典型的例子是围棋智能的突破。谷歌DeepMind的第一代围棋智能（AlphaGo），采用监督学习与强化学习结合的方式训练落子的决策智能，使其具备战胜人类职业棋手的能力。电脑下围棋可以打败人类职业棋手，这一里程碑事件是之前大家不敢想象的事情。尤其是AlphaZero这一版本，采用自我更新、自我进化的机制，仅用21天的自我学习就可以战胜之前的AlphaGo版本，这展示出了强化学习具有类似人类学习机制的巨大潜力。

那么什么是强化学习呢？强化学习是一种模仿动物学习行为的自学习决策方法。研究表明：动物（包括人类）是通过不断地探索试错进行学习的，尽量重复带来奖励的行为，尽量避免产生惩罚的行为。实际上强化学习与最优控制是具有密切关联性的，强化学习是寻找最优策略、最大化未来累积奖励的过程，它与最优控制存在本质上的关联性。因此，我们可以将强化学习视作一个最优控制问题，只不过强化学习大多处理随机性环境，而传统的最优控制大多处理确定性环境。按照这一思想，依据强化学习是否使用环境动力学模型，分为带模型（model-based）和无模型（model-free）两类方法。

同时，按照最优策略的获得方式，又将强化学习分为间接式强化学习（Indirect RL）和直接式强化学习（Direct RL）两大类别。间接式强化学习（Indirect RL）的基本原理是通过求解问题的最优性条件得到最优策略。针对连续时间问题，一般采用哈密顿-雅可比-贝尔曼方程（HJB equation）进行求解；针对离散时间问题，则采用贝尔曼方程（Bellman equation）进行求解。

与之不同的是，直接式强化学习（Direct RL）则直接寻找最大化目标函数的参数化策略作为其最优策略。该方法将最优控制问题视作一个优化问题，采用数值优化方法进行求解。典型方法是一阶优化方法，即策略梯度法，它沿着目标函数上升的梯度方向，不断地更新策略参数，直到找到最优解。

按照上述两种分类方法，一是有无环境模型，二是问题求解方式，我们可以把现有的主流强化学习算法进行更加清晰的分类和定位。如ADP、Q-learning、A3C、DQN、TRPO、PPO、DDPG、TD3、DSAC等，均可依据这一分类方法找到所属的位置。值得注意的是，Actor-Critic是强化学习的一个典型架构，实际上它既可以从间接法推导得到，也可以从直接法推导得到。从间接法的观点看，Critic是一步策略评价，Actor是一步策略更新。从直接法的观点看，Actor本身是Policy Gradient的估计过程，而Critic则是该梯度内部的一项，即Value函数的估计。

Part 2: 自动驾驶汽车的集成式决控（IDC）架构

对于真实的自动驾驶场景，尤其是城市交通场景，道路几何结构是高度复杂的，存在如立交桥、十字路口、环岛、进出匝道等各种类型的道路情况。交通参与者也是多种多样的，涵盖乘用车、公交车、卡车、自行车、电动车、行人等。同时车辆搭载的控制器资源是十分有限的，能耗/成本限制与高计算负担的矛盾比较突出。如何在上述前提下利用强化学习实现高级别自动驾驶汽车的决策与控制呢？这是我们第一步需要思考的问题。

为解决这些挑战性难题，我们依托清华大学车辆与运载学院李克强院士提出的云支持智能网联汽车框架，进行了车路云一体化的自动驾驶策略进化技术路径探索、功能开发和测试验证。该技术路线的基本原理为：通过车端传感器获得车辆状态以及周围环境信息，通过车云或车路云通信技术将所需的数据上传至云端平台，利用云端平台实现自动驾驶策略的快速迭代训练，训练成熟之后的自动驾驶策略将下载到车端进行测试和应用。循环往复这一过程，达到闭环迭代，不断更新的能力。依托这一车路云闭环训练框架，逐渐提升自动驾驶系统的感知、决策和控制性能，从协同式驾驶辅助过渡到协同式环境感知，进一步到协同式决策与控制，最终实现适用于城市道路场景的高级别自动驾驶功能。

单独从决策控制功能看，自动驾驶决控系统共历经了三代技术变革，分别是以谷歌、特斯拉为代表的专家规则型决控，以英伟达、CMU为代表的数据驱动型决控，以及以MIT和清华大学为代表的类脑学习型决控。

专家规则型决控系统依靠专家经验实现驾驶行为选择与轨迹规划，但是由于人类经验的有限性，智能性不足是该类决控系统的最大制约，复杂交通工况的事故率约为人类驾驶员的百倍以上。

数据驱动型决控系统依靠自然驾驶数据直接拟合神经网络策略，然而由于长尾数据样本的存在，对训练数据的需求几乎是海量的，这将是高成本、高耗时的一个艰难过程。据权威机构估计至少需要百亿公里的自然驾驶数据，才能达到人类驾驶员的训练结果，而谷歌自2009年至今也仅收集了3000万公里的路测数据。

另外，监督学习机制只能达到驾驶员的平均水平，而不能超过驾驶员的水平，这也是该类方案的一个较大缺陷。类脑学习型决控系统则以强化学习理论为核心，利用自动驾驶仿真平台和实车运行过程的驾驶数据，通过自主学习进化的方式达到比驾驶员更好的自动驾驶能力，这是进一步提升自动驾驶智能性的重要发展方向。

很明显，直接采用端到端的设计方案解决复杂行驶工况的自动驾驶问题，是一件十分困难的事情。我们的做法是先剥离环境感知模块，仅用强化学习解决自主决策和运动控制模块下的问题。

目前，分层式决控架构是自动驾驶系统开发的常用架构，被工业界和学术界广泛采用，并且也取得了初步的效果。以决策和控制两个部分为例，该架构的自然选择是将自动驾驶任务分为上下两层，上层是自主决策，下层是运动控制。同时进一步分解为预测、决策、规划和控制等多个子任务，分别解决各个子任务对应的子问题。分层式决控架构具有问题可拆解、任务可拆分的优点，便于工程化开发时的任务分工和组织协调。但是，其模块与模块之间的信息传递不可避免地存在信息丢失的风险，而且各自模块具有自己的优化目标，不同优化目标之间也存在一定的矛盾和冲突，难以进行全局优化，不利于提升自动驾驶过程的整体智能性。

事实上，强化学习作为一种有更强性能的最优策略求解器，具备合并决策和控制两个任务到一个整体、进行统一求解的能力。将决策与控制进行合并，这样既发挥了强化学习的求解优势，又能进一步提高自动驾驶系统的智能性。实际上，人类驾驶员也是具有很强的整体性的，我们很难区分人类的行为中哪一部分是自主决策，哪一部分是运动控制。

为此，智能驾驶课题组（iDLab）从2018年开始，提出并推动使用一类全新的决策与控制架构，称之为集成式决控架构（IDC，Integrated Decision and Control）。与分层式架构不同，该架构将决策和控制问题整合为一个统一的约束型最优控制问题，仅包含一个性能指标，一个动力学系统，通过强化学习求解一个自动驾驶策略。该架构包含静态路径规划和动态优选跟踪两个模块。静态路径规划仅根据静态道路环境信息（如道路几何结构、路侧指示标识、地面指示标识等，但是不包括红绿灯、交通参与者等信息），给出一套可跟踪的参考路径集合（注意这是一个参考路径的集合，而不是单条最优的参考轨迹）。而动态优选跟踪则构造为一个跟踪参考路径集合的约束型最优跟踪问题，利用强化学习求解该问题，它的值函数（Value function）具有评价不同参考路径性能的能力，实现“自主决策”的功能；它的策略函数（Policy）则输出油门、刹车、方向盘等控制量，具备“运动控制”的功能。

以十字路口自动驾驶左转任务为例。静态路径规划模块根据道路拓扑结构、交通规则、路侧或路边指示标识等静态信息给出静态参考路径，静态参考路径包括路径的位置信息以及期望速度等信息。

动态优选跟踪模块则综合考虑静态、动态道路环境，包括其他交通参与者以及红绿灯的变化情况。首先需要对比多条候选路径的综合性能，从中选择最合适的一条，并结合道路环境动态调整选择。综合性能涵盖安全性、节能性、通畅性、舒适性、合规性等不同驾驶需求。

同时，车辆在运动过程中，动态优选跟踪模块根据周车和交通信号的具体变化输出相应的控制量，以满足上述不同驾驶需求，在整体行驶路线尽可能地跟踪挑选的参考路径的基础上，实现实时避撞等合理驾驶行为。IDC与分层式决控架构的区别在于，虽然IDC仍存在静态层与动态层两个模块，但决策智能的核心部分仍依赖动态部分的约束型最优跟踪问题的构建与求解。静态层的主要作用是通过全局的、大致的静态路径提供较强的先验知识，降低约束问题的求解难度。

特别巧合的是，所提出的IDC架构与强化学习是可以无缝结合的，它的学习过程直接匹配经典的Actor-Critic训练架构。一般来说，Actor-Critic训练架构主要包括值网络（Critic）和策略网络（Actor）两个模块。状态空间包括静态路径信息、自车状态、周围交通参与者状态、道路信息以及信号灯信息等，动作空间即为自车的控制命令。训练之后的值网络（Critic）用于评价策略网络的性能，可以作为静态路径规划的评判指标。静态路径规划可以根据值网络的输出结果从候选路径中挑选最优的路径。训练之后的策略网络（Actor）可以视为动态优选跟踪策略，根据静态路径规划器提供的路径优化驾驶性能，并输出车辆的加速度和前轮转角等控制命令。

实际上，自动驾驶IDC架构所涉及的约束型最优控制问题，也可以通过模型预测控制（MPC）进行求解。理论上说，强化学习与模型预测控制（MPC）同属于求解最优控制问题的一类数值方法。与模型预测控制（MPC）等方法对比，强化学习存在如下优势：

1、可解决更大规模的问题：允许超过百维、千维的高维状态输入和动作控制；2、可解决高复杂度的问题：允许求解非线性、非平滑和不可导的问题；

3、可以解决随机系统的问题：对于自动驾驶而言，交通参与者和传感器观测值往往是充满随机性的。

实际上，我们具有两套将强化学习应用于自动驾驶汽车的途径：

第一、先离线训练策略、再在线应用策略，即OTOI方法：将强化学习视作最优控制问题的求解器，或使用模型，或使用预先采集的数据，先离线训练一个最优策略，然后部署到自动驾驶汽车，实现在线控制应用。

第二，同时训练和应用策略，即SOTI方法：这是利用强化学习的探索试错机制，通过在线探索环境产生数据，实现自动驾驶策略的在线自我更新。这类方法要求强化学习算法必须进行在线部署，从而进行在线地探索和在线地训练。

目前，这两种方法都存在各自的优缺点。若考虑安全性的问题，OTOI方法在训练过程中是离线进行的，不存在与环境的交互，因此只需要考虑最终在线部署阶段的安全性；而在SOTI方法中，策略在真实环境中在线训练并实时部署，训练中得到的每一个策略都需要考虑安全性的约束。

总体而言，将强化学习应用于自动驾驶领域，绝对不是一个自然而然的过程，不可避免存在一系列挑战性难题。常见的挑战性问题包括：

1、行车安全的严格保障：安全性是自动驾驶的第一诉求，如何在保证安全性的前提下获得一个可行的最优驾驶策略，这是制约应用的瓶颈难题；

2、策略训练效率低下：强化学习本身就存在环境探索与数据利用的矛盾性，加上自动驾驶过程数据采集效率低下，这使得策略训练十分困难；

3、收敛性与稳定性的耦合：与自动驾驶结合之后，强化学习训练过程本身就是一个闭环的最优控制系统，算法的收敛性与闭环系统的稳定性通常是高度耦合的；

4、场景泛化能力不足：一般来说，强化学习的泛化能力是比较差的，而实际道路交通场景是千变万化的，具有各种各样的可能性。

Part 3：混合策略梯度算法（MPG）的设计

如上面所说，策略训练效率低下是制约强化学习用于自动驾驶的一个瓶颈难题。现有的强化学习算法主要分为数据驱动型和模型驱动型两大类。

（1）数据驱动型的强化学习，其优点在于交互数据反映了准确的状态转移信息，以数据为支撑，所有求得的策略具备最优的渐进性能；缺点是算法无法在整个状态空间中进行探索，数据的覆盖范围有限且局部，并且数据的采集成本较高，所以往往会出现过拟合的现象，导致算法的泛化能力差。

（2）模型驱动型的强化学习，其优点在于动力学模型反映了状态空间的全局信息，可在策略训练的全过程提供方差较小的更新梯度，因此具有较快的收敛速度。而且若有完美的动力学模型，便无须额外付出与环境交互采集数据的代价，能够显著提高算法的泛化性。缺点是精准的环境动力学模型往往难以建立，使最优策略的求解精度因模型误差而下降。

为了取长补短，结合两者的优点，现有数据与模型结合的方法多采用两步法（Two-step method）在模型层面进行融合：首先使用数据校正模型，然后再用校正后的模型计算策略梯度实现策略更新。

这一做法的问题在于：由于数据的局部性，模型可能存在严重过拟合，从而损害策略性能。为此，我所在的课题组提出了一类全新的混合策略梯度（MPG，Mixed Policy Gradient）算法，核心思路是使用数据和模型直接构造更优的策略梯度估计，即在梯度层面融合模型和数据两部分信息。

融合的思路是将数据驱动型和模型驱动型策略梯度进行加权融合，即：先分别计算基于数据的策略梯度和基于模型的策略梯度，然后再将两者进行加权。这一方法的关键之处是什么呢？答案是如何更好地选择权重，这是MPG算法的核心难题。从原理上说，最优加权的关键在于数据与模型二者的梯度误差分析。到底更加偏向数据，还是更加偏向模型，取决于谁的误差更小一些。

目前，我们提出了两类权系数选择机制：第一类是梯度层面的系数选择，第二类是状态层面的系数选择。

第一类机制，即梯度层面的系数选择，要求分析数据驱动型和模型驱动型策略梯度偏差的相对关系，通过二者的方差不等式分析，得到的结论为：训练前期，数据驱动型策略梯度估计偏差远高于模型驱动型策略梯度估计偏差，而训练后期反之。由此在设计梯度权重时，使数据驱动型策略梯度的权重随迭代次数不断上升，而使模型驱动型策略梯度的权重不断下降，以此实现策略梯度偏差权衡，达到求解速度和性能的兼顾。

第二类机制，即状态层面的系数选择，则从策略梯度的数学形式入手。不论数据驱动型或者模型驱动型的策略梯度，其形式都是状态空间下每个点的梯度的期望。因为数据或模型可能分别在某些点下具有更好的梯度估计，状态层面的系数选择希望设计一种筛选机制，实现状态空间划分，使其中一部分状态使用数据驱动型的策略梯度，另一部分使用模型驱动型的策略梯度。

对于状态筛选，选用数据和模型的值函数的距离作为启发条件，若在某个状态下这一距离过大，说明模型对该状态估计不佳，此时在该状态使用数据驱动型策略梯度，否则，选用模型驱动型策略梯度。广义上讲，这是一种特殊的系数选择，即对状态空间下每个点的数据驱动型梯度或模型驱动型梯度赋予0或1的权重。

为了验证所提出的MPG算法性能，以飞行器控制与自动驾驶轨迹跟踪为例子，进行典型控制任务的对比验证。对比的基准算法包括DDPG、TD3、SAC、ADP，这些都是强化学习领域具有代表性的优势算法。与基准算法的对比表明，MPG几乎在所有测试任务上均实现了收敛速度与渐近性能的同步提升。以自动驾驶汽车的轨迹跟踪任务为例，与SAC算法相比，求解速度提升了近4倍；与ADP算法相比，策略最优性能提升了93.1%。这些对比案例表明，利用MPG算法可以极大提升自动驾驶决控策略的训练性能，这为自动驾驶汽车的集成式决控策略训练奠定了基础。

Part 4：半开放道路的测试与验证

最后以集成式决控（IDC）架构为基础，开发了自动驾驶汽车的车端决策和控制模块，该模块是一个带Attention机制的多层全连接网络，它的前端是车辆的环境感知模块，后端是车辆的方向盘、油门、刹车三类执行器。

自动驾驶策略的训练系统采用云服务器平台，结合驾驶数据和车路模型对神经网络策略进行训练，训练成功的神经网络通过OTA机制下载到车端应用。实车实验场景是半开放道路的双向八车道信控交叉路口，配置了真实交通流，包括机动车、行人与非机动车。所谓的“半”开放道路是指：为了保证试验过程的安全性，周围的机动车、行人和自行车是真实的，由实验人员驾驶或者扮演，并非完全是与试验无关的外部人员。根据交通流、信号灯、驾驶任务、通行关系的不同，设计了32种交通场景，以此验证IDC架构以及神经网络策略对不同场景的适应能力。下面将展示两个场景的自动驾驶过程。

场景A是自动驾驶汽车左转任务，该场景包括一辆左转前车，两辆对向直行车，两辆对向右转车，以及行人和骑行人。信号灯为绿色。该场景下IDC模块的平均单步计算时间约为15ms。视频中，自车前车先通过路口，自车进入路口后中遇对向直行车辆，减速避让，第一辆直行车通过后，第二辆直行车停车等待，自车加速驶向出口，在出口处遇行人与对向右转车，于是减速，待行人通过后，自车当即加速，从第二条车道驶出路口。

场景B是自动驾驶汽车右转任务，该场景包括一辆右转前车，两辆对向左转车，以及行人和骑行人。信号灯为绿色。该场景下IDC模块的平均单步计算时间约为15ms。视频中，自车加速启动，前车先通过路口，自车进入路口开始转向，同时在出口处遇行人减速停车，行人通过后选择最下方车道驶出路口。

Part 5：总结

最后，简要总结本报告的主要内容。

从原理上说，强化学习是最优控制问题的一类全状态空间数值求解方法，它在工业对象的智能控制领域具有非常广阔的应用前景。然而，将强化学习用于自动驾驶领域并非“算法+对象”的暴力组合。现有研究的一个常见误区是寄希望于“大力出奇迹”，依靠先进算法和高算力装备，训练一个端到端的自动驾驶策略，这一方案往往只能停留在仿真阶段和简单场景，无法真正地上车测试与落地应用。

为了破解这一难题，我所在课题组以李克强院士提出的云支持智能网联驾驶体系框架为基础，通过所提出的集成式决控（IDC）架构巧妙地融合了强化学习的Actor-Critic求解机制，实现了在线计算效率高、策略求解性能佳的双重保障。所提出的IDC架构包括静态路径规划和动态优选跟踪两个模块。前者依托场景静态信息自适应生成候选路径集；后者结合动态交通信息，构造了一个跟踪候选数据集的约束型最优控制问题，这是强化学习应用至关重要的关键设计。

进一步地，为提升自动驾驶策略的训练性能，提出了一类数据与模型混合驱动的策略梯度强化学习（MPG）算法。这一算法结合了数据驱动型和模型驱动型两种策略梯度算法的优势，通过混合加权与混合状态两类权系数选择机制，获得更加准确的策略梯度估计，实现了高求解速度与高求解性能的同时提升。

李升波，清华大学车辆与运载学院副院长，长聘教授，博士生导师，学习工作于斯坦福大学，密歇根大学和加州伯克利大学。从事智能网联汽车、自动驾驶汽车、强化学习、最优控制与估计等领域研究。发表SCI/EI论文>130篇，引用超过11500次，入选ESI高引11篇，国内外学术会议优秀论文奖9次。入选国家级高层次人才项目、交通部中青年科技创新领军人才、首届北京市自然科学基金杰青等。兼任IEEE OJ ITS高级副主编、IEEE Trans on ITS/IEEE ITS Mag副主编等。

——END——

登录查看更多

清华李升波教授：强化学习，让自动驾驶汽车自我进化，越开越好

相关内容