RASNet 论文笔记

2018 年 4 月 26 日 统计学习与视觉计算组 张逸恒

一、背景


(1)、目标的表观特征和语义特征各有优缺点,都很重要

(2)、现有的基于深度学习的目标跟踪方法面临很多问题。比如,离线训练的深度特征提取器在跟踪时不能很好的适应特定的跟踪目标;但若在跟踪时实时提取特征更新特征提取器,就很容易出现过拟合问题,且计算量大不能实现实时跟踪


出于对这些问题的考虑,作者提出了RASNet(Residual Attentional Siamese Network)


二、贡献


首先, 这篇文章提出了一个名为RASNet的端到端的网络,它在基本的双胞胎网络中加入了三种attention mechanisms,分别为:


· general attention   

· residual attention   

· channel attention


并在结合双胞胎网络两支的时候提出了一种weighted cross correlations(加权交叉相关)方法。


(1)、提出了一个端到端的、为目标跟踪任务设计的深度框架,利用了很多最近流行的方法,如Hourglass structure,residual skip connection。还有作者提出的weighted cross correlations方法


(2)、在RASNet中引入了不同的attention机制,明显减轻了离线训练的网络在进行跟踪时不能适应跟踪目标 和 深度学习方法在线跟踪时容易过拟合的问题。


(3)、基于深度学习的跟踪方法中达到80FPS,跟踪效果好。


三、网络结构



一般的双胞胎网络得到响应如下式:

这样的式子有两个缺点,即它其实既比较了目标的表观特征又比较了目标的语义特征,且非常容易过拟合。为了解决双胞胎网络的这些局限性,作者提出了weighted cross correlation方法。

这样做的意义是,特征中每一个成分在双胞胎网络中做互相关操作时的重要性是不一样的。如下图所示,蓝色框内的目标比绿色框内的目标在互相关操作中应该有更强的作用。

但跟踪中一般是图像中心位置的目标更重要,而且带来了太多参数。因此本文将分解为dual attention(general attention 和 residual attention的结合)和 channels attention的结合。


(1)、 Dual Attention


general attention和residual attention结果直接相加得到dual attention。其中general attention描述了所有训练样本的共性,类似一个普通的高斯分布。residual attention描述了训练样本和当前跟踪目标的不同。


(2)、Channel Attention


每一个卷积特征通道往往能对应一种特定的直观形象。因此通道的重要性也不同。channel attention可以理解为,为不同的上下文选择语义属性的操作。意义在于,当目标表观不停变换时,深度网络仍能保持一定的适应能力。学习起来也非常简单,如下式:

(3)、训练


整个网络在一个ILSVRC15的视频目标检测数据集上离线训练。


general attention初始化就是一个矩阵。

residual attention使用一个沙漏型的网络训练,如下图


channel attention如下图

为了适应尺度变化,在跟踪时规定了三种尺度,得到的三个响应图中取响应最大的。


四、实验


1.  作者跟SiamFC方法了对比



2. 在OTB-2013上验证了各个部分的有效性


3.在OTB2013和OTB2015以及VOT2015和VOT2017上做了实验


VOT2015

VOT2017


登录查看更多
10

相关内容

Attention机制最早是在视觉图像领域提出来的,但是真正火起来应该算是google mind团队的这篇论文《Recurrent Models of Visual Attention》[14],他们在RNN模型上使用了attention机制来进行图像分类。随后,Bahdanau等人在论文《Neural Machine Translation by Jointly Learning to Align and Translate》 [1]中,使用类似attention的机制在机器翻译任务上将翻译和对齐同时进行,他们的工作算是是第一个提出attention机制应用到NLP领域中。接着类似的基于attention机制的RNN模型扩展开始应用到各种NLP任务中。最近,如何在CNN中使用attention机制也成为了大家的研究热点。下图表示了attention研究进展的大概趋势。
注意力图神经网络的多标签文本分类
专知会员服务
111+阅读 · 2020年3月28日
专知会员服务
41+阅读 · 2020年2月20日
【斯坦福大学-论文】实体上下文关系路径的知识图谱补全
近期必读的9篇 CVPR 2019【视觉目标跟踪】相关论文和代码
Fully-Convolutional Siamese Networks for Object Tracking论文笔记
统计学习与视觉计算组
9+阅读 · 2018年10月12日
论文笔记之Meta-Tracker(ECCV2018)
统计学习与视觉计算组
16+阅读 · 2018年8月24日
CVPR 2018 论文简单笔记(部分,待更新)
计算机视觉战队
6+阅读 · 2018年6月20日
CVPR 2018 笔记
计算机视觉战队
3+阅读 · 2018年5月25日
【论文笔记】自注意力机制学习句子embedding
Relation Networks for Object Detection 论文笔记
统计学习与视觉计算组
16+阅读 · 2018年4月18日
论文笔记之attention mechanism专题1:SA-Net(CVPR 2018)
统计学习与视觉计算组
16+阅读 · 2018年4月5日
论文笔记:PTAV
统计学习与视觉计算组
3+阅读 · 2017年9月23日
论文笔记:多任务相关粒子滤波跟踪器
统计学习与视觉计算组
9+阅读 · 2017年7月7日
上下文感知相关滤波跟踪
统计学习与视觉计算组
6+阅读 · 2017年6月17日
Question Generation by Transformers
Arxiv
5+阅读 · 2019年9月14日
Arxiv
3+阅读 · 2018年11月13日
VIP会员
相关资讯
Fully-Convolutional Siamese Networks for Object Tracking论文笔记
统计学习与视觉计算组
9+阅读 · 2018年10月12日
论文笔记之Meta-Tracker(ECCV2018)
统计学习与视觉计算组
16+阅读 · 2018年8月24日
CVPR 2018 论文简单笔记(部分,待更新)
计算机视觉战队
6+阅读 · 2018年6月20日
CVPR 2018 笔记
计算机视觉战队
3+阅读 · 2018年5月25日
【论文笔记】自注意力机制学习句子embedding
Relation Networks for Object Detection 论文笔记
统计学习与视觉计算组
16+阅读 · 2018年4月18日
论文笔记之attention mechanism专题1:SA-Net(CVPR 2018)
统计学习与视觉计算组
16+阅读 · 2018年4月5日
论文笔记:PTAV
统计学习与视觉计算组
3+阅读 · 2017年9月23日
论文笔记:多任务相关粒子滤波跟踪器
统计学习与视觉计算组
9+阅读 · 2017年7月7日
上下文感知相关滤波跟踪
统计学习与视觉计算组
6+阅读 · 2017年6月17日
Top
微信扫码咨询专知VIP会员