**本文的主要研究课题是自动驾驶的战术决策。**自动驾驶汽车必须能够处理一系列不同的环境和交通情况,这使得手动指定每个可能的场景的合适行为变得困难。因此,本文考虑基于学习的策略,介绍了不同的基于强化学习的方法。基于深度Q网络(Deep Q-Network, DQN)算法,提出一种通用决策智能体。经过少量修改,该方法可以适用于不同的驾驶环境,并在多种高速公路和交叉路口的仿真场景中得到了验证。通过引入更多的领域知识,以蒙特卡洛树搜索和强化学习的形式将规划和学习相结合,可以获得样本效率更高的智能体。在不同的高速公路场景中,组合方法优于单独使用基于规划或基于学习的策略,同时所需的训练样本比DQN方法少一个数量级。
许多基于学习的方法的一个缺点是它们会创建黑箱解决方案,这并不表明智能体决策的置信度。因此,引入集成分位数网络(Ensemble Quantile Networks, EQN)方法,将分布式强化学习与集成方法相结合,以提供每个决策的偶然不确定性和认知不确定性的估计。结果表明,EQN方法可以在不同的遮挡交叉路口场景中平衡风险和时间效率,同时还可以识别智能体未经过训练的情况。因此,智能体可以避免在训练分布之外做出毫无根据的、有潜在危险的决定。最后,本文介绍了一种神经网络架构,该架构对周围车辆列出的顺序排列是不变的。这种架构通过周围车辆数量的阶乘来提高智能体的采样效率。
https://research.chalmers.se/publication/526543/file/526543_Fulltext.pdf