全卷积式在线跟踪器

2020 年 6 月 13 日 PaperWeekly

©PaperWeekly · 作者｜崔玉涛

学校｜南京大学媒体计算所博士生

研究方向｜目标跟踪

本文介绍我们在单目标跟踪领域的新工作 FCOT (Fully Convolutional Online Tracking)，目前在 VOT2018 / LaSOT / TrackingNet / GOT10k 等多个数据集上达到了实时 trackers 的 state-of-the-art 效果，并且能达到 47fps。

论文标题：Fully Convolutional Online Tracking

论文地址：https://arxiv.org/abs/2004.07109

代码链接：https://github.com/MCG-NJU/FCOT（已公开各数据集 raw results，代码整理后放出）

思考

近年来，基于 Siamese 的方法可以说是占据了视觉跟踪领域的半壁江山，涌现了像 Siamfc, SiamRPN, SiamRPN++, SiamFC++ 等优秀的方法，既能保证比较好的跟踪效果，又达到了很高的 FPS。而另一类判别式的跟踪模型也同样值得瞩目，像 ATOM/DiMP 取得了当时的 SOTA 效果，并且也能达到实时。

如果将目标跟踪任务分为分类（粗定位目标）和回归（精确回归目标的框）两个子任务，那么 DiMP 这类判别式的方法充分证明了对分类任务进行跟踪过程中的在线训练，可以有效地提升 tracker 的鲁棒性，对于区分前景和背景颇有帮助，也因此在多个数据集上达到了当时最好的跟踪效果。

基于此，我们就思考：既然对于分类分支的在线训练已经证明了其有效性，那是否对回归分支进行在线训练能使得跟踪过程中框的准确性更高呢？

Motivation

1. 解决跟踪过程中由于目标形态变化等引发的目标框回归不准确的问题，对回归分支首次进行了在线训练。

2. 为了实现回归分支的在线训练并且能达到跟踪的实时性，就需要一个简洁而有效的回归分支，因此借鉴了检测领域 Anchor-free 的工作 FCOS 的思路，直接回归目标的中心点到四个边的距离。

3. 既然要直接回归目标的中心点到边界的距离，那么首先分类分支中定位出的目标中心点要相对比较准确才能保证较高的精度，因此我们产生了更高分辨率的分类 score map。另外我们发现高分辨率的 score map 对定位精度有效，而低分辨率的 score map 则对 tracker 的鲁棒性有帮助，因此我们提出了将多个不同分辨率的分类 score map 融合进行定位的策略。

具体实现

该网络的上半部分为在线训练部分，用来通过训练帧（给定的第一帧以及以及跟踪结束的之前帧）产生分类 model 和回归 model（即卷积核），下半部分为测试部分，通过上面产生的 model 来对当前的测试帧进行分类和回归，得到目标的中心点和中心点到四个边界的偏移，从而产生最终的目标框。

首先 backbone 我们采用了 Encoder-Decoder 的结构来产生不同分辨率的 score map 和 offset map。Encoder 采用了 R esnet-50 的 Layer1-layer4，Decoder 则采用了简单的几个上采样层。在 backbone 提取了公共特征之后，再对于不同分辨率的分类分支和回归分支分别采用不同的 head 来提取针对特定任务的特征。

3.1 多尺度分类

为了保证分类分支定位目标中心点的精度，我们生成了大小为 72 的分类 score map，然后发现 score map-72 对于相似目标的判定效果不是好，而大小为 18 的低分辨率 score map，虽然精度没有 score map-72 高，但是鲁棒性更好一些。因此我们将两个不同 scale 的 score map 融合进行预测，下面的消融实验也会详细验证。

3.2 Anchor-free回归

对于回归分支，不同于 siamRPN 等方法的 RPN 结构和 ATOM 等采用的 Iou 预测来迭代回归框的方式，我们借鉴了 FCOS，采用了 anchor-free 的回归方式，直接预测中心点到边界的距离，不仅简化了结构，更能高效地实现该分支的在线训练。

3.3 Regression Model Generator

该部分用来实现回归分支的在线训练，包括一个初始化模块和在线优化模块，初始化模块仅仅使用第一帧训练图像产生一个初始的 regression model，而在线优化模块则采用了最速下降法来显式地求出每次迭代的步长（DiMP 在分类分支在线训练中验证了该方式较梯度下降迭代次数更快，效率更高一些）。具体的细节可以参照论文。

实验

4.1 Ablation

在消融实验中，我们主要验证了三部分：多尺度分类，回归分支的在线训练，回归分支的特征融合。

Score map-18 对于鲁棒性的提高有帮助，而 score map-72 则会提高定位的精度，从而提升框的精度，我们在论文的 appendix 中也有更详尽的可视化和讨论。

从 VOT2018 和 trackingnet 可以明显的看出回归分支在线训练的作用，而 VOT 的 accuracy 这个指标之所以比不用在线训练低，是和 vot 的测试方式有关的。在 vot 数据集的测试过程中，如果跟丢了目标就会计作 lost 一次，重新给定目标的真实框进行跟踪。

而 FCOT 加上在线训练之后框更加准确一些，所以也促进了分类分支的在线训练效果，因此 lost 次数更少，每次跟踪的序列更长一些，accuracy 在长序列中就会降低一点。

回归分支的特征融合对于跟踪性能的提升也是有帮助的。

4.2 State-of-the-art

为了验证 FCOT 的性能，我们在主流的单目标跟踪数据集进行了测试，包括 VOT2018 / GOT-10k / OTB100 / UAV123 / NFS 几个重要的短时数据集以及 LaSOT 和 TrackingNet 两个较大的数据集上进行了测试，其中在 VOT2018 数据集上的 EAO 和 Robustness 达到了 0.508 和 0.108，相对于 ICCV2019 的 DiMP 以及 AAAI2020 的 SiamFC++ 有很大提升。

此外在 TrackingNet 和 LaSOT 数据集normalized precision 也提升很大，在 GOT-10k 等数据集上也达到了SOTA的效果。FCOT 在取得当前 SOTA 效果的同时，还能达到 47fps。