用收缩损失(Shrinkage Loss)进行深度回归跟踪

会员服务 ·

用收缩损失(Shrinkage Loss)进行深度回归跟踪

2018 年 10 月 18 日 计算机视觉战队

Winter is coming！

看过冰与火的你应该很熟悉这句，有兴趣的可以去好好观赏一番。但是今天我和大家说的是目标跟踪的内容，如果在这部美剧使用了目标跟踪的技术，又是另一个结局。言归正传，我们还是回到真正的目标跟踪技术。

今天主角就是“Shrinkage Loss”。

01 简述

回归跟踪器直接学习一个从目标对象的定期密集抽样到软标签(由高斯函数生成)来估计目标位置的映射。由于具有快速跟踪和易于实现的潜力，回归跟踪器最近受到越来越多的关注。然而，最先进的深度回归跟踪器的性能不如基于相关滤波的跟踪器。

现在主要的瓶颈是回归学习过程中的极端前景背景数据不平衡。为了平衡训练数据，提出了一个收缩损失（Shrinkage Loss）来惩罚简单训练数据的重要性。为了进一步促进回归学习，使用残差连接融合多个卷积层及其输出响应图。

02 背景技术

现有的跟踪检测方法主要由两个阶段组成，即在第一阶段提取大量的目标样本，第二阶段将每个样本分类为目标或背景。

相反，one-stage回归跟踪器直接学习从目标对象的定期密集抽样到由高斯函数生成的软标签来估计目标位置的映射。One-stage回归追踪器最近受到越来越多的关注，因为它们比two-stage跟踪器更快、更简单。最先进的one-stage跟踪器是基于判别相关滤波器(DCFS)，而不是深度回归网络。尽管DCFS跟踪器在最近的基准测试中性能最好，但由于学习和更新DCFS不依赖于深度特征提取，所以它很少利用端到端训练的优势。

而本次的技术研究了深度回归跟踪器的性能瓶颈，其中回归网络由完全可微的卷积层组成，可以端到端的方式进行训练。与DCFS相比，深度回归网络具有更大的利用大规模训练数据的潜力，并且至少可以像DCFS那样进行鲁棒跟踪。

其实，影响深度回归跟踪器实现最先进精度的主要瓶颈是回归学习中的数据不平衡问题。

03 相关工作

视觉跟踪是近十年来综合调查的一个活跃的研究课题。在本段，首先讨论了two-stage分类模型和one-stage回归模型的代表性跟踪框架，然后简要回顾了分类和回归学习中的数据不平衡问题。

Two-Stage Tracking

Two-stage跟踪框架主要由两个阶段组成：第一阶段使用随机抽样、规则密集抽样或区域候选生成一组候选目标样本；第二阶段将每个候选样本分类为目标对象或背景，为学习正负样本之间的判别边界作出了大量努力。示例包括MIL和Struck方法。

MIL：

Babenko, B., Yang, M., Belongie, S.J.: Robust object tracking with online multiple instance learning. TPAMI 33(8) (2011)

Struck：

Hare, S., Saffari, A., Torr, P.H.: Struck: Structured output tracking with kernels. In: ICCV. (2011)
Ning, J., Yang, J., Jiang, S., Zhang, L., Yang, M.: Object tracking via dual linear structured SVM and explicit feature map. In: CVPR. (2016)

尽管在具有挑战性的目标跟踪基准上具有良好的性能，但我们注意到two-stage深度跟踪器在将图像中的样本直接输入到神经网络中时，其计算量很大，与目标检测不同，视觉跟踪强调样本间的微小位移来精确定位目标。Two-stage深度跟踪器从最近提出的ROI池化方案中获益不大，因为它不能突出高度重叠的样本之间的区别。

One-Stage Tracking

One-stage跟踪框架以搜索区域为输入，并通过学习回归器直接输出响应图，后者将输入特征回归为高斯函数生成的软标签。最流行的one-stage跟踪器中有一类是基于相关滤波器，它将输入搜索区域的所有循环移位版本回归到软标签中。傅立叶领域，基于相关滤波器的跟踪器达到了迄今为止最快的速度，相关跟踪器的许多扩展包括KCF，IMCF，MCPF和BACF。

Data Imbalance

数据不平衡问题在学术界得到了广泛的研究，常用的解决方法包括数据重采样策略和成本敏感策略。（Li, H., Li, Y., Porikli, F.M.: Robust online visual tracking with a single convolutional neural network. In: ACCV. (2014)）采用时间抽样方案平衡阳性和阴性样本，以便利CNN培训。（Bertinetto, L., Valmadre, J., Henriques, J.F., Vedaldi, A., Torr, P.H.S.: Fullyconvolutional siamese networks for object tracking. In: ECCV Workshops. (2016)）平衡预训练前分数映射中正负样本的损失。MDNet表明，在训练分类网络中挖掘难负样本是至关重要的。最近关于密集目标检测的工作提出通过减少不平衡样本的损失来减少focal loss。

04 算法

本次技术提出的跟踪算法是基于One-stage深度回归网络的，提出了一种新的收缩损失来处理回归学习中的数据不平衡问题。