【视觉目标跟踪最高峰】VOT Challenge 2017 亚军北邮团队技术分享（附代码）

2017 年 11 月 4 日 新智元 何智群

【AI WORLD 2017世界人工智能大会倒计时 4 天】

AI World 2017世界人工智能大会终极指南：嘉宾演讲与议程

在2017年11月8日在北京国家会议中心举办的AI World 2017世界人工智能大会上，我们邀请到阿里巴巴副总裁、iDST副院长华先胜，旷视科技Face++首席科学家、旷视研究院院长孙剑博士，腾讯优图实验室杰出科学家贾佳亚教授，以及硅谷知名企业家、IEEE Fellow Chris Rowen，共论智慧城市、视觉AI新认知等前沿计算机视觉技术。

抢票链接：http://www.huodongxing.com/event/2405852054900?td=4231978320026

大会官网：http://www.aiworld2017.com

新智元报道

作者：何智群，北京邮电大学

编辑：文强

【新智元导读】视觉跟踪领域国际顶级赛事 Visual-Object-Tracking Challenge (VOT) 2017年结果出炉，结合传统滤波及深度学习的方案取得最佳成绩。本文是第二名北京邮电大学代表团队的技术分享。他们基于滤波的框架，抛弃传统特征，只使用CNN特征，减少了特征冗余，缓解了模型过拟合，使追踪器在速度和精度上都有不小的提高。代码分享链接：https://github.com/he010103/CFWCR.git

随着深度学习在计算机视觉方面大放异彩，近几年物体追踪也得到了飞速的发展。物体追踪解决的问题是在一段时间内对于同一个物体在复杂的背景下（如遮挡，光照，物体旋转等），进行持续高速的跟踪。因此，物体追踪是监控，安防，自动驾驶，无人机，智能家居等应用中必须解决的关键课题。

作为视觉跟踪领域的最高峰，Visual-Object-Tracking Challenge (VOT) 是国际目标跟踪领域最权威的测评平台，由伯明翰大学、卢布尔雅那大学、布拉格捷克技术大学、奥地利科技学院联合创办，旨在评测在复杂场景下单目标短时跟踪的算法性能。由于每年的评测序列都会更新，且标注的精确度一年一年提高，VOT竞赛也被视为视觉跟踪领域最难的竞赛，远远超过了其他数据集。因此，每年最好的追踪算法都会在上面一展拳脚，在激烈的比拼中擦出灵感的火花。

今年的比赛 VOT 2017，作为 ICCV 2017的一个workshop，吸引了来自全世界的38个队伍参加（CMU，中科院，法国科学院，香港理工，华中科技大学，国防科大，美国海军研究院，牛津大学，中国科技大学，浙江大学等），提交了38个新的算法参加了比赛，加上组委会自行提交的13个算法，总共对比分析了51个跟踪器在VOT2017 数据集上的表现。

在公开的38个队伍中，大连理工大学的卢湖川教授队伍夺得第一名。由北京邮电大学董远教授指导，北京飞搜科技&北京邮电大学代表队何智群、樊应若、庄骏飞、白洪亮提交的结果（CFWCR）获得VOT 2017竞赛公开的60个评测序列中第二名。

VOT 竞赛，检验当前单目标追踪最高标准

VOT 2017与VOT 2016相比，VOT 2016中某些序列已经被多数tracker准确跟踪，所以在VOT 2017中，将VOT 2016的10个评测效果差图像序列替换如图1，并且保证总体的序列属性分布不变。与此同时，VOT2017相对于VOT2016对所有序列的还对所有序列的ground truth进行了重新标定，精确到像素级别，然后重新拟合矩形框。

图1 vot2017标注变化图

VOT2017使用EAO（Expected Average Overlap）、Accuracy、Robustness三个主要指标对跟踪结果进行评估，

平均重叠期望（EAO）是对每个跟踪器在一个短时图像序列上的非重置重叠的期望值，是VOT评估跟踪算法精度的最重要指标。
准确率（Accuracy）是指跟踪器在单个测试序列下的平均重叠率（两矩形框的相交部分面积除以两矩形框的相并部分的面积）。
鲁棒性（Robustness）是指单个测试序列下的跟踪器失败次数，当重叠率为0时即可判定为失败。

今年的VOT结果如下：

图2 VOT2017结果图

VOT 2017结果显示，目前跟踪算法的主流方法主要分为三种，一是传统的相关滤波方法，二是基于卷积神经网络方法，三是深度卷积特征和传统的协同滤波相结合的方法。

其中，使用深度卷积特征和协同滤波结合的方法效果最好。例如今年VOT第一名，大连理工大学卢老师的LSART，他们提出的追踪器以一种新的方式结合了CNN和相关滤波，通过设计算法让CNN专注于特定区域的回归，相关滤波专注于全局的回归，在最后对回归的结果进行组合，以互补的方式得到物体的精确定位。

今年VOT的51个tracker中，深度特征和相关滤波结合的方法共9种，采用如VGG网络提取特征再输入到相关滤波框架内，以非端到端线上更新滤波参数，达到准确追踪的效果。这9种深度特征和相关滤波结合的方法在VOT2017种表现均较为出色，包揽了前四名。

VOT 2017视觉跟踪第二名技术：单卷积特征的相关滤波解决方案

北京飞搜科技&北京邮电大学代表队提交的结果（CFWCR）获得VOT 2017竞赛公开的60个评测序列中第二名。

我们的方法基于业界流行的相关滤波的框架。我们使用了单CNN特征的多尺度追踪方案。现有很多追踪器融合了CNN特征和传统的机器学习特征，如hog特征，CN颜色特征等。在我们的实验中，我们发现CNN的浅层特征具有物体轮廓的信息，高层的深度特征具有物体的语义信息，将CNN的浅层和高层特征进行融合，能使追踪器具有很好的性能。

CNN的特征和传统特征的融合会使得特征的冗余太多，容易导致参数更新的时候模型过拟合，解决过拟合的一种方法是用PCA对特征进行降维。但是，过于复杂的特征组合方式不太利于超参数的精调，我们摒弃了传统的特征，只使用了CNN的特征。这一做法，减少了我们的特征冗余，模型过拟合的情况得到很大的缓解，使得我们的追踪器无论是在速度上还是精度上都有了不小的提高。

图3 CFWCR追踪效果对比图

使用相关滤波框架的一大困难是具有很多的超参数，这和目前主流的端到端深度学习训练框架有很大的不同。我们发现用PCA对特征进行压缩，能使得追踪器在追踪速度上有很大的提高，但是性能会略有下降。因此，我们在评测上没有使用PCA，而在实用的追踪系统中用PCA能更好地均衡速度和精度。

此外，我们发现，在评测中，增加候选尺度的数量能使我们的追踪器更好地适应物体在时间序列中形状的变化。最后，我们对CNN的轮廓信息和语义信息进行了加权融合，以最优的方法对特征进行组合。

下面是我们的追踪器在不同的序列长度下的表现曲线。可以看到，我们的算法在短视频序列的表现明显优于其他主流的算法。

图4 CFWCR重叠率性能图

视觉跟踪未来展望：充分利用CNN

连续两年的VOT比赛中，基于相关滤波和CNN结合的追踪器表现突出，在性能指标上遥遥领先于其他算法。然而，非端到端的训练框架拥有很多的超参数，线上更新的方式也使得在实际算法部署的过程中，目前性能最优的一些追踪器难以满足实时性的要求。

视觉追踪方向和物体检测、物体分割方向不同的一点，在于CNN并没有完全发挥它的强大作用。未来的视觉追踪方向应该会更加关注实时性和训练的便捷性，端到端训练的追踪器会更多涌现，让CNN能够完全在视觉追踪领域发挥功效。我们也将继续在视觉跟踪领域深入研究，希望能给学术界和工业界做一些小小的贡献！

代码分享链接：https://github.com/he010103/CFWCR.git

参考资料

[1]http://www.votchallenge.net
[2]http://openaccess.thecvf.com/content_ICCV_2017_workshops/papers/w28/Kristan_The_Visual_Object_ICCV_2017_paper.pdf
[3]http://openaccess.thecvf.com/content_ICCV_2017_workshops/papers/w28/He_Correlation_Filters_With_ICCV_2017_paper.pdf

想要了解更多计算机视觉技术前沿及产业应用？11月8日，欢迎来新智元世界人工智能大会，马上抢票！