CREST: Yibing Song, Chao Ma, Lijun Gong, Jiawei Zhang, Rynson Lau, Ming-Hsuan Yang. "CREST: Convolutional Residual Learning for Visual Tracking." ICCV (2017 Spotlight).
项目地址:http://www.cs.cityu.edu.hk/~yibisong/iccv17/index.html
论文地址:https://arxiv.org/abs/1708.00225
Discriminative correlation filters(DCF)在跟踪任务中表现处极为强大的性能,但是由于DCF方法有解析解,特征提取和滤波器学习是分离的
目前DCF方法更新滤波器的方式是采用一个经验常数线性加权更新,常数是hand-craft的
基于以上分析,DCF方法难以做到端到端学习
将相关滤波问题改写为一层卷积网络的形式,包含了特征提取、响应生成和模型更新,从而能够实现端到端的训练
在卷积网络中应用了残差学习,使得我们的方法能够捕捉到目标的外观变化,残差学习包含了空间域和时间域两部分,通过残差学习,大大提升了应对由于外观变化而产生的模型漂移问题的能力
我们在标准数据集上验证了我们的方法达到了state-of-the-art的性能
原始DCF的问题形式为岭回归
定义损失函数L的形式为
相关滤波器替换为单层卷积
为了应对跟踪过程中的外观变化,没有采用堆叠卷积的方式,而是采用了残差学习
网络的输出形式变成
除了上一帧空间位置的残差,额外引入第一帧时间域残差,有效应对物体遮挡
在第一帧用VGG16预训练的权值提取图像特征,使用PCA降到64维,然后初始化残差网络
三种响应合成最终响应,然后定位最大响应位置
目标定位后在预测位置提取不同尺寸的候选区域输入网络,得到响应最大的尺寸,然后从上一帧尺寸加权更新,从而实现目标尺寸的平滑更新
每隔T帧更新网络,T帧中的候选区域都作为训练样本,标签值为对应的高斯响应
在OTB和VOT2016上都获得了state-of-the-art的结果