「视频目标跟踪」最新2022研究进展综述

2022 年 9 月 26 日 专知

视频目标跟踪是计算机视觉中的重要任务之一，在实际生活中有着广泛的应用，例如视频监控、视觉导航等。视频目标跟踪任务也面临着诸多挑战，如目标遮挡、目标形变等情形。为解决目标跟踪中的挑战，实现精确高效的目标跟踪，近年来出现大量的目标跟踪算法。本文介绍了近十年来视频目标跟踪领域两大主流算法框架（基于相关滤波和孪生网络的目标跟踪算法）的基本原理、改进策略和代表性工作，之后按照网络结构分类介绍了其他基于深度学习的目标跟踪算法，还从解决目标跟踪所面临挑战的角度介绍了应对各类问题的典型解决方案，并总结了视频目标跟踪的历史发展脉络和未来发展趋势。本文还详细介绍和比较了面向目标跟踪任务的数据集和挑战赛，并从数据集的数据统计和算法的评估结果出发，总结了各类视频目标跟踪算法的特点和优势。针对目标跟踪未来发展趋势，本文认为视频目标跟踪还面临诸多难题亟需解决，例如当前的算法往往无法在长时间、低功耗、抗干扰的环境下实地应用。未来，考虑多模态数据融合，如将深度图像、红外图像数据与传统彩色视频联合分析，将会为目标跟踪带来更多新的解决方案。目标跟踪任务也将会和其他任务，如视频目标检测、视频目标分割，相互促进共同发展。

1. 引言

视频目标跟踪是计算机视觉领域重要的基础性研究问题之一，是指在视频序列第一帧指定目标后，在后续帧持续跟踪目标，即利用边界框（通常用矩形框表示）标定目标，实现目标的定位与尺度估计（目标跟踪问题通常分为单目标跟踪和多目标跟踪，本文主要关注单目标跟踪问题）。视频目标跟踪具有广泛的应用价值，包括 1) 公共安防领域 [1]：对人群或重点对象进行跟踪定位，实现监控场景下可疑人员轨迹重建与实时定位[2–4]；2) 自动驾驶领域[5]：辅助自主导航，轨迹规划等功能的实现； 3) 智能机器人领域：用于机器人视觉导航，关注目标的运动轨迹捕获与主动追踪；4) 人机智能交互领域：通过人体关键部位（如手部）跟踪与识别，实现计算机根据人体特定动作或手势等完成相应反馈。由于存在诸多技术挑战和潜在应用价值，视频目标跟踪近年来也引起学术界和工业界的广泛关注和大量研究[6,7]。视频目标跟踪的挑战主要体现在跟踪目标为非特定物体，且目标在视频序列往往会发生不可预期的变化和干扰。正是因为目标的非特定性，目标跟踪器无法预先对跟踪目标进行预先训练或建模。而在跟踪过程中，还会产生如目标消失、目标外观变化、背景干扰、目标快速移动等诸多问题，对目标跟踪造成严峻的挑战。

为解决目标跟踪问题中的困难，建立精确和高效的目标跟踪器，大量的目标跟踪算法应运而生。早期的目标跟踪采用了许多经典的机器学习方法，如支持向量机[8, 9]，集成学习[10]，稀疏重建[11]等。近年来，目标跟踪领域发展迅速。图 1 分类汇总了近十年来目标跟踪领域的主流算法框架和代表性方法。首先，2010 年，基于相关滤波的目标跟踪算法开始出现[12]，由于其具备良好的精度和超高的速度，迅速引起了相关研究者的广泛关注，围绕相关滤波算法框架，许多优化方法，如特征优化、模型优化应运而生，使得相关滤波目标跟踪算法发展成为近十年来目标跟踪的主流方法之一，在相关工作数量和各大数据集的性能表现上均具有明显优势。最近，深度学习在计算机视觉领域展现了强大的性能[13,14]，基于深度学习的目标跟踪算法也相继问世，其中孪生网络由于相比于其他深度学习算法框架具备较高的计算速度，因此受到更广泛的关注和研究[15]，围绕孪生滤波网络的一系列方法也展现出强大的竞争力。另外，其他深度神经网络如卷积神经网络，循环神经网络以及图卷积神经网络也都在目标跟踪算法中得以应用，并展现出一定的优势。对于目标跟踪算法，本文首先以目标跟踪近年来的两大主流算法框架—相关滤波和孪生网络为主线，介绍两类方法的发展历程及具有代表性的相关工作，本文也将介绍其他深度学习框架下的相关算法。此外，本文还将重点介绍应对目标跟踪面临主要挑战问题的解决方案和代表性工作，包括上述提到的目标消失、目标外观变化、背景干扰、目标快速移等问题。

除了目标跟踪算法，算法评估数据集和挑战赛也是推动目标跟踪任务快速发展的重要动力之一。从最早期的 OTB [16] 数据集只包含 50 个视频，平均长度约 500 帧，到最新的 LaSOT[17]数据集包含 1,400 个视频，平均长度超 2,500 帧。视频目标跟踪数据集正向大规模、长时间、多样化的方向一步步发展。本文也将详细介绍和比较近年来视频目标跟踪任务的数据集，包括 10 个普通彩色 (RGB) 视频数据集，1 个彩色-深度 (RGB-D) 视频以及 1 个彩色-红外 (RGB-T) 视频数据集。本文还介绍了目标跟踪主流挑战赛 VOT 的视频特点、评估方式等，以及近年来挑战赛的主要结果与分析。

尽管近年来目标跟踪算法在上述数据集上取得了较高的精度，但是视频目标跟踪距离实际应用还具有一定的差距。本文最后还从多个方面详尽讨论了目标跟踪未来的发展趋势。1）首先，针对目标跟踪发展面临的痛点，如目前算法无法适用于长时间、低功耗、抗干扰场景等，本文将重点介绍目标跟踪算法距离实际落地应用面临的瓶颈难题。例如，目前的目标跟踪数据集虽然视频长度已经较前些年明显增长，但是现实场景中往往需要实现分钟级别甚至小时级别的视频目标跟踪，因此实现长时间目标跟踪是未来的重要发展方向之一。此外，现有的跟踪算法尤其是基于深度网络或深度特征的算法，往往需要高性能设备支持，考虑到视频目标跟踪的应用场景，低功耗设备上的轻量级算法开发也是该领域的研究方向之一。面临深度学习需要大量训练数据的痛点，减少训练数据标注的弱监督、无监督方法也是目标跟踪未来的发展方向之一。还有考虑到算法的安全性及鲁棒性，针对目标跟踪算法的对抗攻击机制也开始兴起。此外，本文还涉及了特定场景，如无人机航拍视频，遥感图像下的目标跟踪研究。2）为实现更加鲁棒的跟踪，随着多模态数据采集设备的兴起与普及，考虑多视频源数据输入，如深度图像、红外图像等，用于视频目标跟踪，可以从数据源上有效地解决传统彩色视频中目标遮挡，光照变化等情形对跟踪带来的挑战。3）最后，为探究目标跟踪更多的应用长场景与交叉研究，本文还介绍了目标跟踪与计算机视觉领域其他密切相关任务，如视频目标检测、分割等问题的交叉研究。

本文后续章节的组织如下，第二章主要介绍视频目标跟踪任务面临的诸多挑战，第三章将分类介绍近十年来目标跟踪问题的主要方法，第四章介绍目标跟踪任务的主流评估数据集和挑战赛，以及相关算法在数据集和挑战赛上的评估结果和成绩，第五章展望了视频目标跟踪任务未来的发展趋势，最后，第六章对全文进行了总结。

2 视频目标跟踪中的挑战

对于视频目标跟踪问题，主要面临的挑战表现在视频目标前背景在跟踪过程中发生的复杂变化[18 –20]。如图 2，这些变化包括：目标消失、目标形变、背景干扰以及目标移动等情形。上述情况往往导致视频序列中跟踪目标所依赖的特征，如外观、形状或背景等信息，随时间变化存在较大的不一致性，使得跟踪器在后续视频帧中无法准确识别和跟踪目标。

(1) 目标消失：目标消失是视频目标跟踪中最具挑战性的问题之一，主要包括在某段时间内目标（或部分目标）被其他物体遮挡或移出相机视野范围，当目标重新出现时如何继续跟踪目标，如图 2- (a) 所示。影响此类问题的因素主要包括遮挡范围和遮挡时间，若目标全部被遮挡或长时间被遮挡，往往会造成跟踪器无法有效更新，从而跟踪失败。

(2) 目标变化：目标变化是视频目标跟踪中最常见的问题之一，主要包括目标形变，目标旋转等情形。通常来说，非刚性物体在跟踪过程中都会发生不同程度的形变。如图 2-(b) 所示，左侧图示视频中目标（运动员）在执行动作过程中随时间发生了严重的形变，长宽比例变化明显。目标旋转通常包含两方面内容，一是平面内旋转，另一类是平面外旋转。前者是指目标旋转轴垂直于目标图像所在的平面，后者则表示旋转轴与图像平面不垂直的情形，图 2-(b) 右图展示了目标平面外旋转的例子。

(3) 背景干扰：背景干扰也是目标跟踪问题经常出现的问题，主要表现是背景杂乱和光照变化等情形。图 2-(c) 分别展示了目标受杂乱背景干扰和光照严重变化的情形。如何有效地进行前背景分离，从而精确地抓取前景抑制背景也是目标跟踪的根本问题。而光照变化不仅对背景造成干扰，也使得目标前景本身的外观特征发生一定程度的变化。强烈的光照变化通常造成不同帧序列之间目标外观差异增大，而同一帧之内目标前背景差异减小，从而加大跟踪的难度。

(4) 目标移动：视频目标跟踪所研究的对象主体往往是运动的目标，目标移动对目标跟踪造成的困难主要包括目标快速运动和目标运动模糊等情形。由于目标跟踪通常采取在目标前一帧所处位置周围区域进行搜索的策略，因此目标快速运动可能造成目标与前序帧位置差异较大，甚至超出搜索区域。另一方面，目标移动本身造成的运动模糊也会造成目标前景虚化，从而影响目标特征表达。同样的，相机移动甚至会造成整幅图像的模糊，也是影响目标跟踪效果的挑战之一。

最后，在实际的目标跟踪问题中，上述挑战往往并不是单一出现，多类困难并存的情形也十分常见。比如图 2-(b) 左侧示例中目标变形的同时也在快速移动，同样，图 2-(c) 左侧示例中目标背景干扰的同时也存在着形变和旋转。因此，尽管目标跟踪已经经历长时间的研究，其仍然存在着诸多挑战亟需解决。

3. 视频目标跟踪方法

视频目标跟踪是计算机视觉的基础问题之一，近年来受到广泛关注和深入研究。许多机器学习的方法被广泛用于视频目标跟踪问题，例如: 支持向量机 SVM (Support Vector Machines)[8, 9] , 增量学习 [21]，集成学习[10]，稀疏重建[11]，相关滤波[12]，卷积神经网络 CNN (Convolutional Nueral Network)[22] , 循环神经网络 RNN (Recurrent Neural Network)[23] 等。其中，近十年来最主流的两类方法是基于相关滤波 CF (Correlation Filter) 和孪生网络 (Siamese Network) 框架的方法。相关滤波目标跟踪算法自 2010 年提出之后，由于其在跟踪精度和算法速度取得良好的平衡性，迅速发展成为目标跟踪的主流方法之一。自 2014 年以来，在视频目标跟踪主流挑战赛 VOT (Visula Object Tracking Challenge) 上，相关滤波目标跟踪算法在参赛数量和成绩上都具有明显的优势。基于孪生网络的目标跟踪算法相比相关滤波方法出现较晚，开创性工作是 2016 年出现的 SiameseFC[24]算法。此后，基于孪生滤波的目标跟踪方法迅速发展，在文献数量和算法性能方面都取得显著的优势，在 VOT 挑战赛上也展现出一定的竞争力。本章将在第 3.1 节和 3.2 节分别介绍当前视频目标跟踪的两大主流方法，即基于相关滤波和孪生网络的目标跟踪，在第 3.3 节介绍其他基于深度神经网络的目标跟踪算法，第 3.4 节介绍解决目标跟踪所面临挑战而提出的方法和应对策略。

回顾近年来视频目标跟踪的发展，可以分析总结得到以下几点：

1) 相关滤波 CF 目标跟踪方法的优点：i) 在线更新，可以更好地适应于目标的时序变化；ii) 无需训练，不需要大量的标注数据离线训练。相关滤波 CF 目标跟踪方法的不足：i) 模型在更新过程中容易漂移，一旦目标丢失将导致滤波器被污染；ii) 无法高效率用基于大规模数据训练的深度特征提高算法精度。

2) 相关滤波 CF 目标跟踪方法的改进方案：i) 进一步发挥深度特征的优势，将更有效的特征与 CF 算法框架结合；ii) 与 Siamese 网络等方案的思想相结合，在保持目标在线更新的过程中更有效地保留目标初始（第一帧）信息。

3) Siamese 网络目标跟踪方法的优点：Siamese 系列算法可以保留目标第一帧模板数据，大量的离线训练可以使其充分地发挥深度学习的优势。 Siamese 网络目标跟踪方法的不足：Siamese 网络无法真正意义上抑制背景中的困难样本，也就是说离线的学习从本质上无法区分长相相似的目标，如行人、车辆的实例级区分。不能像 CF 相关算法通过分析整个环境的上下文关系来进行调整，其网络模式更像是单样本目标检测任务。

4) Siamese 网络等深度学习跟踪算法的改进方案：i) 集成在线学习的 Siamese 网络，可以为提升目标跟踪鲁棒性提供新的方向；ii) 当前的目标跟踪特征网络大多基于主流主干网络，如 ResNet 等，而开发特定结构的特征提取网络用于目标跟踪任务，如借鉴单样本学习 (one-shot learning) 中的特征提取网络，可以提取更适合的特征；iii) 当前的大规模数据集，如 LaSOT 等，其训练数据与测试数据的目标类型高度重复，导致模型更偏向于跟踪固定类别的目标。而如何提升模型的泛化性能，是研究通用非特定目标跟踪的重要基础；iv) 现有的 Siamese 网络算法结构日益复杂，如何实现网络结构小型化是算法落地的重要需求。

5) 目标跟踪方法框架发展趋势：从最近出现的跟踪算法来看，算法发展方向呈现多元化发展趋势，更多新的网络结构，如图网络、循环神经网络、动态记忆网络，和方法技巧，如注意力机制、无锚点策略、上下文关系等，开始应用于目标跟踪任务。其他深度目标跟踪方法虽然呈多样化趋势发展，但是并未形成完整体系。近年来的主流框架仍然为基于相关滤波和孪生网络的方法。另外，基于 ATOM[81]及其系列算法 DiMP[83]，PrDiMP[84]综合了深度学习离线训练与 CF 在线更新的优势，在算法精度上表现突出。从未来近几年内目标跟踪方法的发展趋势来看，CF 目标跟踪方法已经发展地比较成熟，未来拓展空间有限。基于卷积神经网络的深度学习算法，特别是 Siamese 框架下的目标跟踪算法仍是主流。此外，无论是早期的 CF 算法还是后来的的 Siamese 网络，都无法有效应对长时间目标跟踪任务，因此面向长时间目标跟踪的深度学习算法框架将对目标跟踪领域具有重要意义。

4. 视频目标跟踪数据集及结果分析

表 1 总结了目前视频目标跟踪主流的 13 个数据集的统计信息。本文主要介绍和比较相关数据集的规模（包括所含视频数目，所含帧数目）、时长（包括视频平均时长，数据集视频总时长）、多样性（包括数据集所含目标类别，数据集视频分类点，和论文出处）。

通过上述对当前主流的视频目标跟踪算法在各个数据集和历年挑战赛上的结果比较和分析，我们可以梳理出视频目标跟踪近十年来的发展脉络： 1) 算法追求精度与速度兼顾：从表 3 可以看出，最早期的相关滤波目标跟踪算法可以达到超过 300 fps 的运行速度，然后随着特征的加强与模型复杂度的增加，虽然跟踪精度得到一步步提升，但算法的速度也大幅度下降，发展到 C-COT 算法，虽然蝉联了两届 VOT 挑战赛的第一名，但不到 1 fps 的跟踪速度使得算法难以实际应用。因此后续相关滤波算法开始进一步对冗余的模型参数，特征等进行优化，使得算法接近实时的运行速度。类似的，基于孪生滤波的算法早期也具有较高的运行速度，如 SiameseFC 可以达到 86 fps，之后的改进算法在牺牲一定速度的前提下提升了精度，但都保持了超过或接近实时的运行速度。因此，兼顾算法精度与速度是最近年来目标跟踪算法的重要发展趋势之一。 2) 相关滤波和孪生网络算法框架优势明显：从各个数据集上算法评估以及 VOT 比赛结果来看，相关滤波和孪生网络算法框架已发展成为近年来目标跟踪问题的主流算法框架。 3) 相关滤波算法精度优势突出：近年来，相关滤波目标跟踪算法在视频目标跟踪领域各大数据集上表现良好，具备强大的性能和明显的优势。回顾 VOT-2013 至 VOT-2020 视频目标跟踪比赛，如表 4 所示，相关滤波目标跟踪算法在参赛数量和结果表现上均处于领先地位。然而，伴随着近年来的快速发展，相关滤波目标跟踪算法也已经发展得比较成熟，算法改进和提升的空间也相对有限。 4) 孪生网络算法综合性能良好：近年来基于孪生网络的视频目标跟踪算法由于兼顾实时性与精度，综合性能表现良好。从 VOT-RT2017 至 VOT-RT2020 视频目标跟踪实时算法比赛结果来看，基于孪生网络的算法表现突出。 5) 深度学习方法的作用日益突出：不论是相关滤波算法融合深度特征对效果有明显提升，还是其他深度网络的目标跟踪算法快速发展，都说明了深度学习方法在视频目标跟踪任务中的作用日益显现。