CVPR 2020 | 港中文、上交大、商汤联合提出两种轨迹预测新方法

2020 年 5 月 13 日 学术头条

本次分享两篇轨迹预测相关 CVPR 2020poster 论文:

基于候选轨迹的轨迹预测方法(TPNet: Trajectory Proposal Network for Motion Prediction)

TPNet 论文地址：https://arxiv.org/pdf/2004.12255.pdf

基于递归目标关系图的轨迹预测方法(Recursive Social Behavior Graph for Trajectory Prediction)

RSBG 论文地址：https://arxiv.org/pdf/2004.10402.pdf

论文作者来自商汤自动驾驶分析与预测组、港中文 MM Lab 实验室以及上海交通大学卢策吾老师团队。

任务介绍

随着自动驾驶的快速发展，如何理解自动驾驶周围目标的行为成为自动驾驶系统中的重要一环。轨迹预测任务旨在根据目标(如行人、车辆等交通参与者)当前或者历史轨迹与环境信息，对该目标未来的行驶轨迹进行预测。轨迹预测结果是自动驾驶系统进行提前决策的重要信息之一。

动机

轨迹预测任务有以下几个难点:

预测结果多模态(multimodal)特性：对于同一条历史轨迹，不同目标可能有不同的未来轨迹。例如在十字路口，A 车可能左转, B 车可能直行。如何对不同意图进行建模，使预测方法能够生成较为完善的预测结果是轨迹预测任务较为关注的一点。
预测结果可解释、可靠: 交通参与者一般会受到各种交通规则的约束，如何利用这些规则输出安全可靠的预测结果对于自动驾驶系统而言至关重要。
目标间交互关系建模: 在自动驾驶场景中，目标间的行为不仅受到其自身的意图影响，还会受到周围其他目标行为的影响。

针对前两个问题, 我们提出TPNet: Trajectory Proposal Network for Motion Prediction。为了输出多模态的预测结果，之前的方法大多学习一个轨迹的分布，通过采样、最大化后验概率的方法得到一个或多个概率较大的轨迹。然而对于轨迹预测任务来说未来轨迹的分布空间可能非常大，如左转和右转两种意图对应的轨迹相差较大，导致基于数据驱动的方法难以学习到这种多模态预测。因此我们提出一种新型的两阶段轨迹预测方法 TPNet。

在第一阶段，TPNet 预测不同意图的多个终点并基于这些终点生成不同的候选轨迹(proposals)。在第二阶段，TPNet 会对这些 proposals 进行分类和回归，分类模块对每个候选轨迹进行二分类，回归模块对候选轨迹进行修正得到更加精准的预测结果。

值得一提的是，这种两阶段方法保证了两种轨迹的多模态，首先针对不同意图，TPNet 会生成不同的轨迹；其次针对同一种意图，TPNet 也会生成一组候选轨迹。进一步的，这种两阶段框架也可以帮助我们将一些先验知识融入进深度学习框架，我们提出对不在可行驶区域(如下图，白色区域为车辆可行驶区域，灰色为行人可行驶区域)的候选轨迹与预测结果进行惩罚，衰减其置信度，从而保证预测结果的可靠性。

针对目标间交互关系建模，我们提出Recursive Social Behavior Graph for Trajectory Prediction。近年来基于 RNN 的算法极大的提升了预测的准确精度，但是在一些地方仍然有较大的提升空间。较为关键的一点是引入人群之间的交互关系来辅助预测。

早先的做法，例如 pooling 和 attention，都是基于行人之间的欧式距离来判断交互关系的强弱。这种基于欧氏距离的判断方法，不能很好的处理现实生活中复杂的情况。例如下图中所示，上图两人虽然相隔整个场景，但是表现出了很强的相遇的行为倾向。而下图的三组行人，红色两组虽然距离较远，但是表现出了跟随的行为，而红蓝两组虽然距离较近，但是没有产生很强的相互作用。

我们提出了使用基于行人组层面的标注来解决这一困境。通过将有相似行为，目的地的行人分为小组，并对组内行人进行关系标注，可以对整个场景中的行人关系进行详尽的抽取。同时，围绕这一思路，我们提出了基于 LSTM 和 GCN 的神经网络模型，来递归的对行人轨迹和关系进行分析，在 ETH 和 UCY 数据集上取得了超过 10% 的提升。

方法介绍

TPNet

我们提出的两阶段预测方法 TPNet 如上图所示，主要分为四个模块：基础特征提取模块、终点预测模块、轨迹生成模块以及轨迹分类与修正模块。

基础特征提取模块 结合目标的历史轨迹、环境信息(道路结构)，使用基于 CNN Encoder-Decoder 的结构提取特征。并基于该特征对目标未来的终点进行初步预测。

候选轨迹生成模块 基于预测得到的终点，生成一系列候选轨迹。为了生成多模态特性的候选轨迹集，我们提出两种候选轨迹生成方法：基于单个终点的候选轨迹生成、基于多个意图的候选轨迹生成。为了减小轨迹的搜多空间，我们将轨迹建模为三次曲线，通过生成曲线簇来生成候选轨迹集合。基于单个终点的候选轨迹生成方法以预测得到的终点为中心生成一个固定大小的网格，通过遍历网格的中心生成 M 个可能的终点。为了生成不同弯曲程度的候选轨迹，基于每个可能的终点，生成 N 个控制点。最终将 M 个可能终点与 N 个控制点两两组合，并结合历史轨迹点，通过三次曲线拟合的方法，我们可以得到 MxN 个候选轨迹，如下左图示（橙色实线为候选轨迹）。基于多个意图的候选轨迹生成则针对目标的不同意图，生成不同的终点，然后利用基于单个终点的候选轨迹生成生成不同的候选轨迹集合。以车辆预测为例，Argoverse 数据集提供了车辆不同的可能行驶路线(参考线)，我们针对每条参考线预测出不同终点并生成对应候选轨迹，如下右图示（绿色虚线为参考线）。

在训练阶段， 分类模块 利用候选轨迹与真值轨迹的平均距离划分正负样本，平均距离小于阈值的作为正样本，其余作为潜在负样本。平均距离计算公式如下:

其中, 分别为未来预测时间点对应真值轨迹点坐标与候选轨迹点坐标。通过对潜在负样本进行均匀采样，保证正负样本比例为 1:3 确定负样本。

对于所有正样本及部分随机采样的负样本， 轨迹修正模块 对候选轨迹的终点及控制点进行修正，修正公式定义为：

其中与为候选轨迹终点坐标与真值终点坐标的偏差，为控制的参数与真值的偏差。

最后对于不在可行驶区域的候选轨迹与预测轨迹，我们提出使用如下高斯衰减对其分类置信度进行衰减:

其中为预测轨迹点不在可行驶区域内的比例，为高斯衰减系数。最终 TPNet 输出分类置信度最高的轨迹作为预测结果。

RSBG

我们提出的方法 RSBG 如上图所示，可以被分成三个子模块: 个体表征模块，群体表征模块和解码器。

1. 个体表征模块是用来对每个人的历史行为和周围环境进行分析编码。考虑到人类行为具有前后关联的性质，我们使用双向 LSTM 来提取行为特征；使用 CNN 来提取环境特征。最后将两个拼接以得到个体表征向量。

2. 群体表征模块用来提取行人之间的关系。主要可以分为构建行为关系图和递归抽取两部分。首先，我们将整个场景中的所有行人的历史轨迹信息输入到一个由 MLP 组成的关系生成器中，来分析每个人两两之间的关系，关系强弱使用 0-1 来表示。在训练过程中，我们使用标注好的行人组来对其进行监督，当两人处于同一组时，GT 为 1，反之为 0。在得到两两行人之间的关系之后，我们将其看做边，并把行人的历史轨迹看做节点，构建行为关系图。随后，GCN 网络被用来递归地对该图进行分析整合，为每一个行人得到其群体表征向量。

3. 最后，我们将个体表征向量和群体表征向量进行融合，使用 LSTM 解码器来生成预测结果。

考虑到使用常见的 L2 Loss 对性能分析指标之一的 FDE 优化有限，我们提出了 Exponential L2 Loss 来作为损失函数，该函数可以表示为：

其中和表示历史轨迹，i 表示人的 id，t 表示时间点，γ 为超参数，指示了每个预测点随着时间变化重要性的增强程度。

实验结果

轨迹预测任务常用评价指标为终点预测误差(FDE)、平均轨迹预测点预测误差(ADE)。我们还使用了以下评估指标:

minFDE: 对于 N 个预测轨迹，选择终点预测误差最小的作为评估结果
minADE：对于 N 个预测轨迹，选择平均轨迹预测点预测误差最小的作为评估结果
DAC: 预测满足可行驶区域程度

TPNet 在多个轨迹预测数据集上进行了实验: ETH、UCY、ApolloScape 以及 Argoverse，均取得了 SOTA 的效果。

通过下图可视化分析，我们可以看出 TPNet 可以输出多模态以及可靠的预测结果。其中红色点为目标历史轨迹，绿色点为真值轨迹，蓝色点为 TPNet 预测轨迹。

RSBG 在流行的 ETH 和 UCY 数据集上进行试验，并与多个框架进行比较。结果显示我们的方法在多个子数据集上均超过了之前的 SOTA 成绩，并且从平均上来看，ADE 和 FDE 得到了 11.1% 和 10.8% 的提升。

从可视化分析来看，使用我们的方法之后，可以对人群之后相遇，跟随，避让等行为都有一个更加合理的预测。

参考资料：
[1] Ming-Fang Chang, John W Lambert, Patsorn Sangkloy, Jagjeet Singh, Slawomir Bak, Andrew Hartnett, De Wang, Peter Carr, Simon Lucey, Deva Ramanan, and James Hays. Argoverse: 3d tracking and forecasting with rich maps. In Conference on Computer Vision and Pattern Recognition (CVPR), 2019.
[2] Stefano Pellegrini, Andreas Ess, Konrad Schindler, and Luc Van Gool. You’ll never walk alone: Modeling social behavior for multi-target tracking. In 2009 IEEE 12th International Conference on Computer Vision, pages 261–268. IEEE, 2009.
[3] Alon Lerner, Yiorgos Chrysanthou, and Dani Lischinski.Crowds by example. In Computer graphics forum, volume 26, pages 655–664. Wiley Online Library, 2007.
[4] Yuexin Ma, Xinge Zhu, Sibo Zhang, Ruigang Yang, Wenping Wang, and Dinesh Manocha. Trafﬁcpredict: Trajectory prediction for heterogeneous trafﬁc-agents. arXiv preprint arXiv:1811.02146, 2018.

近期精彩集锦（点击蓝色字体跳转阅读）：

公众号对话框回复“ 2020科技趋势 ”，获取 《2020科技趋势报告》 完整版PDF！

公众号对话框回复“ AI女神 ”，获取 《人工智能全球最具影响力女性学者报告》 完整版！

公众号对话框回复“ AI10 ”，获取 《浅谈人工智能下一个十年》 主题演讲PPT！

公众号对话框回复“ GNN ”，获取 《图神经网络及认知推理》 主题演讲PPT！

公众号对话框回复“ 学术搜索 ”，获取 《人工智能之学术搜索》 报告完整版！

公众号对话框回复“ AI指数 ”，获取 《2019人工智能指数报告》 完整版PDF！

公众号对话框回复“ 3D视觉 ”，获取 《3D视觉技术白皮书》 完整版PDF！