浙大最新《多目标跟踪MOT嵌入》方法研究进展综述，20页pdf涵盖314篇综述文献阐述最新方法与数据集

2022 年 5 月 31 日 专知

多目标跟踪是计算机视觉领域的经典研究方向。最近来自浙江大学等《多目标跟踪MOT嵌入》综述论文，对现有的MOT嵌入方法进行了分类和总结，并对其优点和局限性进行了深入全面的分析。总结为未来的算法设计和新课题的探索提供了启示。

多目标跟踪(MOT)的目的是将视频帧内的目标物体进行关联，从而获得完整的运动轨迹。随着深度神经网络的发展和对智能视频分析需求的增加，MOT在计算机视觉界得到了越来越多的关注。嵌入方法在目标定位估计和时间身份关联中起着至关重要的作用。与其他计算机视觉任务如图像分类、目标检测、再识别、分割等不同，MOT中的嵌入方法变化很大，从未得到系统的分析和总结。本研究首先从patch级嵌入、单帧嵌入、跨帧联合嵌入、关联嵌入、顺序嵌入、轨迹嵌入和跨轨关系嵌入7个不同的角度对MOT中的嵌入方法进行了全面的综述和深入的分析。我们进一步总结了现有的广泛使用的MOT数据集，并根据其嵌入策略分析了现有的先进方法的优势。最后，讨论了一些有待进一步研究的领域和未来的研究方向。

https://arxiv.org/abs/2205.10766

近年来，多目标跟踪(MULTI-OBJECT tracking, MOT)得到了广泛的研究，其目的是将被检测物体跨视频帧进行关联，获得完整的运动轨迹。近年来出现了各种各样的跟踪算法，从图聚类方法[1]，[2]，[3]，[4]到聚合跨帧和对象信息的图神经网络[5]，[6]，[7]，[8];从跟踪检测模式[9]、[10]、[11]，到联合检测跟踪[5]、[12]、[13]、[14]、[15]、[16]，提高多帧检测性能;从卡尔曼滤波[17]到循环神经网络(RNN)[18]和长短时记忆(LSTM)[19]，以提高与运动线索的关联性能。随着跟踪算法的发展，MOT可以应用于许多任务，如交通流分析[1]，[20]，[21]，[22]，人类行为预测和姿态估计[23]，[24]，[25]，[26]，自动驾驶辅助[27]，[28]，甚至水下动物丰度估计[29]，[30]，[31]。

MOT系统的流程主要分为两部分，即嵌入模型和关联算法。在输入多个连续帧的情况下，通过嵌入技术和关联方法估计目标的位置和轨迹。由于存在光照变化、遮挡、复杂环境、快速相机运动、不可靠检测、各种低分辨率[32]等问题，MOT具有挑战性。此外，跟踪算法的单个步骤，如检测、特征提取、亲和力估计和关联，也会影响跟踪性能。这些导致了显著的变化和不确定性。随着深度神经网络表示学习的发展，嵌入方法在MOT中目标位置估计和时间身份关联中发挥着重要作用。虽然关联在MOT中也很重要，但在本研究中，我们更多关注的是嵌入学习，而不是关联。

然而，MOT中的嵌入学习方法还没有得到系统的分析和总结。不同于其他计算机视觉任务，如图像分类、目标检测、再识别(Re-ID)和分割，MOT中的嵌入方法有很大的变化。一些嵌入方法将多任务头[16]、[33]、[34]、[35]、[36]组合在一起，包括框回归、对象分类、再识别等。一些嵌入方法考虑了[12]，[14]，[37]，[38]，[39]的时空相关性，将外观信息和运动信息相互协作。一些方法利用目标之间的交互关系，前景和背景，局部和全局信息的相关性和注意，学习轨迹嵌入[40]，[41]，[42]，[43]。嵌入方法的较大偏差促使我们从嵌入的角度进行全面综述，并讨论几个研究不足的嵌入区域和未来的方向。

图 1. MOT中嵌入方法的分类。最上面的流程图是这次调查的大纲。绿色和浅红色的盒子表示嵌入方法和代表性文献分别。

近年来已有一些关于MOT的综述[44]，[45]，[46]，[47]，[48]发表。具体来说，[44]总结了一些基于深度学习的跟踪器和深度神经网络结构。[45]侧重于回顾基于模型的多假设跟踪与机器学习技术在检测，过滤和关联。[46]回顾了深度学习在MOT中的应用，包括检测、特征提取、亲和性计算和关联。[47]回顾了近几十年来MOT的发展，重点关注深度学习技术和研究MOT的最新进展。[48]提供了MOT系统的回顾，并从不同的方面讨论了方法。与现有研究不同的是，我们关注的是MOT中的嵌入学习，即如何为MOT任务学习面向对象的代表性特征，并根据嵌入策略对最先进的方法进行综合分析。这项综述的主要贡献总结如下:

我们对现有的MOT嵌入方法进行了分类和总结，并对其优点和局限性进行了深入全面的分析。总结为未来的算法设计和新课题的探索提供了启示。
我们总结了广泛使用的数据集和基准测试，并根据嵌入方法分析了最先进的方法。
我们试图讨论与嵌入技术相关的几个重要研究方向和未被充分研究的问题，并对未来的趋势迈出一步。

这次综述的概要总结如下。我们首先演示了相关的工作，包括在第2节中最相关的MOT任务。第3节提供了嵌入方法的分类和详细调研。然后，我们总结了现有的广泛使用的MOT数据集，评估指标，并根据嵌入方法分析了最先进的方法。在第5节中，我们讨论了几个未被研究的问题，并指出了未来的发展趋势和潜在的研究方向。结论在第6节得出。

MOT嵌入方法体系

嵌入方法是目标位置估计和ID关联的关键。我们提出的MOT嵌入方法分类如图1所示。在本节中，我们将常用的MOT嵌入方法分为七组，包括patch级嵌入、单帧嵌入、跨帧联合嵌入、基于相关的嵌入、序列嵌入、轨迹嵌入和交叉轨迹关系嵌入。对于每一类方法，我们都介绍了具有代表性的算法，然后讨论了它们的优缺点，希望能为研究人员提供对每一类方法的深入分析。

MOT数据集

我们首先回顾了11个广泛使用的MOT数据集，包括KITTI [177]， [211]， [212]， mo15 [213]， DukeMTMCT [117]， MOT16-17 [143]， PathTrack [124]， UA-DETRAC [214]， PoseTrack [215]， [216]， MOTS [37]， CityFlow [20]， KITTI MOTS [37]， MOT20 [32]， [144]， nuScenes [217]， Waymo [218]， BDD100K[219]，[220]，和VisDrone[221]，[222]，[223]，[224]。这些数据集主要集中在人和车辆的跟踪。一些用于一般的行人跟踪，一些用于交通流分析和自动驾驶。注释包括2D和3D边框、姿势和关键点以及实例蒙版。表2汇总了这些数据集的统计情况。也有其他针对特定任务的跟踪数据集，如HiEve [225]， [226]， DanceTrack [227]， Omni-MOT [38]， [228]， Virtual KITTI [229]， Apollo MOTS [111]， TAO-person [230]， WildTrack[231]，和GMOT-40[232]。这些数据集的详细信息可以在参考资料中找到。