基于深度学习的多目标跟踪（MOT）技术一览

会员服务 ·

基于深度学习的多目标跟踪（MOT）技术一览

2020 年 8 月 26 日 THU数据派

来源：极市平台

本文约 3931字 ，建议阅读 8分钟。

本文是一篇多目标跟踪方向的调研报告，从相关方向、核心步骤、评价指标和最新进展等维度出发，对MOT进行了全面的介绍，不仅适合作为入门科普，而且能够帮助大家加深理解。

最近做了一些多目标跟踪方向的调研，因此把调研的结果以图片加文字的形式展现出来，希望能帮助到入门这一领域的同学。也欢迎大家和我讨论关于这一领域的任何问题。

核心步骤

MOT算法的通常工作流程：(1)给定视频的原始帧；(2)运行对象 检测器以获得对象的边界框；(3)对于每个检测到的物体， 计算出不同的特征，通常是视觉和运动特征；(4)之后， 相似度计算步骤计算两个对象属于同一目标的概率；(5)最后， 关联步骤为每个对象分配数字ID。

因此绝大多数MOT算法无外乎就这四个步骤： ①检测 ②特征提取、运动预测 ③相似度计算 ④数据关联。

其中影响最大的部分在于检测，检测结果的好坏对于最后指标的影响是最大的。

但是，多目标追踪的研究重点又在 相似度计算和 数据关联这一块。所以就有一个很大的问题：你设计出更好的关联算法可能就提升了0.1个点，但别人用一些针对数据集的trick消除了一些漏检可能就能涨好几个点。所以研究更好的数据关联的回报收益很低。因此多目标追踪这一领域虽然工业界很有用，但学术界里因为指标数据集的一些原因，入坑前一定要三思。

评价指标

关于评价指标：

第一个是传统的标准，现在已经没人用了，就不介绍了。

第二个是06年提出的CLEAR MOT。现在用的最多的就是 MOTA。但是这个指标FN、FP的权重占比很大，更多衡量的是 检测的质量，而不是 跟踪的效果。

第三个是16年提出的ID scores。因为都是基于匹配的指标，所以能更好的衡量 数据关联的好坏。

数据集

数据集用的最多的是 MOTChallenge，专注于行人追踪的。

第二个KITTI的是针对自动驾驶的数据集,有汽车也有行人，在MOT的论文里用的很少。

还有一些其他比较老的数据集现在都不用了。

15年的都是采集的老的数据集的视频做的修正。

16年的是全新的数据集，相比于15年的行人密度更高、难度更大。特别注意这个 DPM检测器，效果非常的差，全是漏检和误检。

17年的视频和16年一模一样，只是提供了 三个检测器，相对来说更公平。也是现在论文的 主流数据集。

19年的是针对特别拥挤情形的数据集，只有CVPR19比赛时才能提交。

这个是 MOT16公开检测器上的结果。可以看到从17年开始，MOTA就涨的很慢了。关注一下这个帧率有20Hz的算法MOTDT也是我后面要讲的一个。

这个是 MOT16私有检测器上的结果。可以看到 检测器性能的好坏对于结果的影响非常重要。SOTA算法换了私有检测器后性能直接涨了快20个点。

这个是 MOT17公开检测器上这几年比较突出的算法。注意因为这个数据集用了三个检测器，所以FP、FN这些指标也都几乎是16数据集的三倍。

SORT和DeepSORT

关键算法

从这两个 工业界关注度最高的算法说起。

SORT作为一个粗略的框架，核心就是两个算法： 卡尔曼滤波和 匈牙利匹配。

卡尔曼滤波分为两个过程：预测和更新。预测过程：当一个小车经过移动后，且其初始定位和移动过程都是高斯分布时，则最终估计位置分布会更分散，即更不准确；更新过程：当一个小车经过传感器观测定位，且其初始定位和观测都是高斯分布时，则观测后的位置分布会更集中，即更准确。

匈牙利算法解决的是一个 分配问题。SK-learn库的linear_assignment___和scipy库的linear_sum_assignment都实现了这一算法，只需要输入cost_matrix即 代价矩阵就能得到最优匹配。不过要注意的是这两个库函数虽然算法一样,但给的输出格式不同。具体算法步骤也很简单，是一个复杂度的算法。

DeepSORT的优化主要就是基于匈牙利算法里的这个 代价矩阵。它在IOU Match之前做了一次额外的 级联匹配，利用了 外观特征和 马氏距离。

外观特征就是通过一个Re-ID的网络提取的，而提取这个特征的过程和NLP里词向量的嵌入过程（embedding）很像，所以后面有的论文也把这个步骤叫做嵌入（起源应该不是NLP，但我第一次接触embedding是从NLP里）。然后是因为欧氏距离忽略空间域分布的计算结果，所以增加里 马氏距离作为运动信息的约束。

SORT

这个SORT的流程图非常重要，可以看到整体可以拆分为两个部分，分别是 匹配过程和 卡尔曼预测加更新过程，都用灰色框标出来了。一定要把整个流程弄明白。后面的多目标追踪的大框架基本都由此而来。

关键步骤：轨迹卡尔曼滤波预测→ 使用 匈牙利算法将预测后的tracks和当前帧中的detecions进行匹配（ IOU匹配） → 卡尔曼滤波更新

对于没有匹配上的轨迹，也不是马上就删掉了，有个T_lost的保存时间，但SORT里把这个时间阈值设置的是1，也就是说对于没匹配上的轨迹相当于直接删了。

关于这点论文里的原话是：

首先，恒定速度模型不能很好地预测真实的动力学，其次，我们主要关注的是帧到帧的跟踪，其中对象的重新识别超出了本文的范围。

这篇文章的机翻在《SORT》论文翻译

DeepSORT

这是DeepSORT算法的流程图，和SORT基本一样，就多了 级联匹配（Matching Cascade）和 新轨迹的确认（confirmed）。

这篇文章的机翻在《DeepSORT》论文翻译

关键步骤：轨迹卡尔曼滤波预测→ 使用 匈牙利算法将预测后的tracks和当前帧中的detecions进行匹配（ 级联匹配和 IOU匹配） → 卡尔曼滤波更新

级联匹配是核心，就是红色部分，DeepSORT的绝大多数创新点都在这里面，具体过程看下一张图。

关于为什么新轨迹要连续三帧命中才确认？个人认为有这样严格的条件和测试集有关系。因为测试集给的检测输入非常的差，误检有很多，因此轨迹的产生必须要更严格的条件。

级联匹配流程图里上半部分就是 特征提取和 相似度估计，也就是算这个分配问题的代价函数。主要由两部分组成：代表运动模型的 马氏距离和代表外观模型的 Re-ID特征。

级联匹配流程图里下半部分 数据关联作为流程的主体。为什么叫级联匹配，主要是它的匹配过程是一个循环。从missing age=0的轨迹（即每一帧都匹配上，没有丢失过的）到missing age=30的轨迹（即丢失轨迹的最大时间30帧）挨个的和检测结果进行匹配。也就是说，对于没有丢失过的轨迹赋予 优先匹配的权利，而丢失的最久的轨迹最后匹配。

论文关于参数λ（运动模型的代价占比）的取值是这么说的：

在我们的实验中，我们发现当相机运动明显时，将λ= 0设置是一个合理的选择。

因为相机抖动明显，卡尔曼预测所基于的匀速运动模型并不work，所以马氏距离其实并没有什么作用。但注意也不是完全没用了，主要是通过阈值矩阵（Gate Matrix）对代价矩阵（Cost Matrix）做了一次 阈值限制。

关于DeepSORT算法的详细代码解读我比较推荐：目标跟踪初探（DeepSORT）

但关于卡尔曼滤波的公式讲的不是很详细，具体推导可以看看 Kalman Filter 卡尔曼滤波

改进策略

看到这个DeepSORT的流程图不知道大家可以想到什么优化的地方？其实有几个点是很容易想到的。

第一点，把 Re-ID网络和检测网络融合，做一个精度和速度的trade off；

第二点，对于轨迹段来说，时间越长的轨迹是不是更应该得到更多的信任，不仅仅只是级联匹配的优先级，由此可以引入 轨迹评分的机制；

第三点，从直觉上来说，检测和追踪是两个相辅相成的问题，良好的追踪可以弥补检测的漏检，良好的检测可以防止追踪的轨道飘逸， 用预测来弥补漏检这个问题在DeepSORT里也并没有考虑；

第四点，DeepSORT里给马氏距离也就是运动模型设置的系数为0，也就是说在相机运动的情况下线性速度模型并不work，所以是不是可以找到 更好的运动模型。

未来展望

最后用多目标追踪未来的一些思考作为结尾，这句话是最近的一篇关于多目标追踪的综述里的。

它在最后提出对未来的方向里有这样一句话， 用深度学习来指导关联问题。其实现在基于检测的多目标追踪都是检测模块用深度学习，Re-ID模块用深度学习，而 最核心的数据关联模块要用深度学习来解决是很困难的。现在有一些尝试是用RNN，但速度慢、效果不好，需要走的路都还很长。

我个人觉得 短期内要解决实际问题，还是从Re-ID的方面下手思考怎样 提取更有效的特征会更靠谱，用深度学习的方法来处理数据关联不是短时间能解决的。

参考文献：

[1] Alex Bewley, Zongyuan Ge, Lionel Ott, Fabio Ramos, and Ben Upcroft. Simple online and realtime tracking. In2016 IEEE International Conference on Image Processing (ICIP), pages 3464–3468. IEEE, 2016.

[2] Nicolai Wojke, Alex Bewley, and Dietrich Paulus. Simple online and realtime tracking with a deep associationmetric. In2017 IEEE International Conference on Image Processing (ICIP), pages 3645–3649. IEEE, 2017.

[3] Chen Long, Ai Haizhou, Zhuang Zijie, and Shang Chong. Real-time multiple people tracking with deeplylearned candidate selection and person re-identification. InICME, 2018.

[4] Zhongdao Wang, Liang Zheng, Yixuan Liu, Shengjin Wang. Towards Real-Time Multi-Object Tracking. arXiv preprint arXiv:1909.12605

[5] Gioele Ciaparrone, Francisco Luque Sánchez, Siham Tabik, Luigi Troiano, Roberto Tagliaferri, Francisco Herrera. Deep Learning in Video Multi-Object Tracking: A Survey. arXiv preprint arXiv:1907.12740

——EN D——