Winter is coming!
看过冰与火的你应该很熟悉这句,有兴趣的可以去好好观赏一番。但是今天我和大家说的是目标跟踪的内容,如果在这部美剧使用了目标跟踪的技术,又是另一个结局。言归正传,我们还是回到真正的目标跟踪技术。
今天主角就是“Shrinkage Loss”。
01 简述
回归跟踪器直接学习一个从目标对象的定期密集抽样到软标签(由高斯函数生成)来估计目标位置的映射。由于具有快速跟踪和易于实现的潜力,回归跟踪器最近受到越来越多的关注。然而,最先进的深度回归跟踪器的性能不如基于相关滤波的跟踪器。
现在主要的瓶颈是回归学习过程中的极端前景背景数据不平衡。为了平衡训练数据,提出了一个收缩损失(Shrinkage Loss)来惩罚简单训练数据的重要性。为了进一步促进回归学习,使用残差连接融合多个卷积层及其输出响应图。
02 背景技术
现有的跟踪检测方法主要由两个阶段组成,即在第一阶段提取大量的目标样本,第二阶段将每个样本分类为目标或背景。
相反,one-stage回归跟踪器直接学习从目标对象的定期密集抽样到由高斯函数生成的软标签来估计目标位置的映射。One-stage回归追踪器最近受到越来越多的关注,因为它们比two-stage跟踪器更快、更简单。最先进的one-stage跟踪器是基于判别相关滤波器(DCFS),而不是深度回归网络。尽管DCFS跟踪器在最近的基准测试中性能最好,但由于学习和更新DCFS不依赖于深度特征提取,所以它很少利用端到端训练的优势。
而本次的技术研究了深度回归跟踪器的性能瓶颈,其中回归网络由完全可微的卷积层组成,可以端到端的方式进行训练。与DCFS相比,深度回归网络具有更大的利用大规模训练数据的潜力,并且至少可以像DCFS那样进行鲁棒跟踪。
其实,影响深度回归跟踪器实现最先进精度的主要瓶颈是回归学习中的数据不平衡问题。
03 相关工作
视觉跟踪是近十年来综合调查的一个活跃的研究课题。在本段,首先讨论了two-stage分类模型和one-stage回归模型的代表性跟踪框架,然后简要回顾了分类和回归学习中的数据不平衡问题。
Two-Stage Tracking
Two-stage跟踪框架主要由两个阶段组成:第一阶段使用随机抽样、规则密集抽样或区域候选生成一组候选目标样本;第二阶段将每个候选样本分类为目标对象或背景,为学习正负样本之间的判别边界作出了大量努力。示例包括MIL和Struck方法。
MIL:
Babenko, B., Yang, M., Belongie, S.J.: Robust object tracking with online multiple instance learning. TPAMI 33(8) (2011)
Struck:
Hare, S., Saffari, A., Torr, P.H.: Struck: Structured output tracking with kernels. In: ICCV. (2011)
Ning, J., Yang, J., Jiang, S., Zhang, L., Yang, M.: Object tracking via dual linear structured SVM and explicit feature map. In: CVPR. (2016)
尽管在具有挑战性的目标跟踪基准上具有良好的性能,但我们注意到two-stage深度跟踪器在将图像中的样本直接输入到神经网络中时,其计算量很大,与目标检测不同,视觉跟踪强调样本间的微小位移来精确定位目标。Two-stage深度跟踪器从最近提出的ROI池化方案中获益不大,因为它不能突出高度重叠的样本之间的区别。
One-Stage Tracking
One-stage跟踪框架以搜索区域为输入,并通过学习回归器直接输出响应图,后者将输入特征回归为高斯函数生成的软标签。最流行的one-stage跟踪器中有一类是基于相关滤波器,它将输入搜索区域的所有循环移位版本回归到软标签中。傅立叶领域,基于相关滤波器的跟踪器达到了迄今为止最快的速度,相关跟踪器的许多扩展包括KCF,IMCF,MCPF和BACF。
Data Imbalance
数据不平衡问题在学术界得到了广泛的研究,常用的解决方法包括数据重采样策略和成本敏感策略。(Li, H., Li, Y., Porikli, F.M.: Robust online visual tracking with a single convolutional neural network. In: ACCV. (2014))采用时间抽样方案平衡阳性和阴性样本,以便利CNN培训。(Bertinetto, L., Valmadre, J., Henriques, J.F., Vedaldi, A., Torr, P.H.S.: Fullyconvolutional siamese networks for object tracking. In: ECCV Workshops. (2016))平衡预训练前分数映射中正负样本的损失。MDNet表明,在训练分类网络中挖掘难负样本是至关重要的。最近关于密集目标检测的工作提出通过减少不平衡样本的损失来减少focal loss。
04 算法
本次技术提出的跟踪算法是基于One-stage深度回归网络的,提出了一种新的收缩损失来处理回归学习中的数据不平衡问题。
Convolutional Regression
卷积回归网络将由高斯函数生成的软标签输入的密集抽样回归。这里,我们将回归网络定义为一个卷积层。形式上,学习回归网络的权值是为了解决以下最小化问题:
Shrinkage Loss
为了学习卷积回归网络,输入搜索区域必须包含大量围绕目标对象的背景(如下图(A),由于周围的背景包含有价值的上下文信息,背景的大面积有助于增强背景下目标对象的识别能力,但这也增加了大量来自背景的简单样本,这些容易的样本在总体上造成了很大的损失。使学习过程不知道有价值的样本接近目标。
最近在稠密物体检测方面的工作表明,在熵损失中增加一个调节因子有助于缓解数据不平衡问题。调制因子是输出可能性的函数,目的是减少简单样本的损失。在回归学习中,这相当于使用绝对值L的指数形式重新加权平方损失,如下所示:
下图(A)显示了具有不同超参数的调制函数的形状。当应用调制因子对平方损失进行加权时,建议的收缩损失如下:
Convolutional Layer Connection
CNN模型由多个卷积层组成,强调不同层次的语义抽象,对于视觉跟踪来说,具有细粒度空间细节的早期层有助于精确定位目标对象;而后层则保持目标对象的语义抽象,对显着的外观变化具有鲁棒性。
为了利用这两种优点,现有的深度跟踪器在多个卷积层上独立开发模块,并将相应的输出响应图与经验权重集成起来。
不同的方案融合卷积层
05 实验
使用OnePass评估(OPE)在OTB-2013和OTB-2015数据集的总体性能
该方法在Temple Color 128数据集上的总体性能,本次分享的技术取得了最佳的距离精度和第二好的重叠成功率。
可视化结果
OTB-2015上不同层连接的总体性能
06 总结
本次技术重新研究了基于深度回归网络的one-stage跟踪器,找出了阻碍one-stage回归跟踪器取得最先进结果的瓶颈,特别是与DCFS跟踪器相比,主要的瓶颈在于学习回归网络中的数据不平衡。
于是,提出了一种收缩损失,以便于学习回归网络具有更高的精度和更快的收敛速度。为了进一步改进回归学习,利用了目标对象的多层语义抽取。通过多个卷积层作为特征。将剩余连接应用于卷积层及其输出响应图。本次技术的网络是完全可微的,并且允许进行端到端的训练。
成功地缩小了one-stage深度回归跟踪器和DCFS跟踪器之间的性能差距。在四个基准数据集上的广泛实验表明,与最先进的算法相比,所提出的跟踪器的有效性和效率。
若有兴趣,请去“计算机视觉战队”公众平台慢慢去欣赏
(向左滑动,有惊喜)
如果想加入我们“计算机视觉战队”,请扫二维码加入学习群,我们一起学习进步,探索领域中更深奥更有趣的知识!