拥有时空注意力机制的光流相关滤波跟踪方法

2018 年 4 月 10 日 统计学习与视觉计算组 尚子钰

CVPR2018论文,原文链接:

https://arxiv.org/abs/1711.01124



1.摘要

    判别式跟踪方法近来取得了很大的进步,但是判别式方法都是使用当前帧来获取特征,没有充分利用目标的运动信息和帧间信息。所以本文作者使用包含了丰富信息的光流特征来进行目标跟踪。

    本文主要贡献有三点:

    a)设计了一个端到端地使用光流和相关滤波方法的跟踪框架

    b)设计了一个新颖的时空注意力机制,自适应地将当前帧和之前帧特征结合起来

    c)在OTB2013、OTB2015、VOT2015、BOT2016实验效果最好

2.具体方法

2.1总体网络框架

总体框架是一个双胞胎网络。然后将前T(实验中,T=6)帧的信息整合起来,最后使用相关滤波方法,计算最终响应值。

2.2光流特征与深度特征缠绕(warp)

    如示意图所示,分别将第t-1帧和第t-i帧(i=2,3,4,5,6)送到一个光流网络当中,提取5次光流特征。将所有这几帧图片如第t-1、t-2、...、t-6帧送到神经网络当中,分别提取提取深度特征,(i=1,2,...,6)。最后然后将光流特征与其对应的深度特征进行特征缠绕,操作可以用下式表示,i=2,...,6:

融合后的第i个特征的、第m个通道的、位置p上的数据为

其中,=,是位置p上的光流信息。q是深度特征的所有位置,是q这个位置上的深度特征。K是一个双线性插值核。也就是说,对第i个特征的、第m个通道的、位置p上进行数据缠绕时,要用位置p上的光流信息与所有可能的位置q计算一下K,然后再和所有可能的位置q上的特征一一对应相乘,最后把所有的乘积加起来。

        用上面的方法,就可以把光流特征和其对应的深度特征进行数据缠绕,获得5个缠绕后的特征。而第t-1帧的特征直接保留下来,作为第6个特征。这6个特征一起,进行下一步的操作。

2.3自适应权值求解(也就是空间注意力机制和时间注意力机制)

2.3.1空间注意力机制

    将上一步得到的6个特征,分别进行一定步骤的bottleneck子网络映射(可以理解为用来缩小数据量的全卷积),得到映射后的特征,按照下面的方法,得到特征i的位置p上的各个通道的权重向量:

其中softmax相当于把权重归一化一下。这里i取t-1到t-6。此处操作,相当于所有特征和t-1帧特征计算一次cos距离,与t-1帧越相似,则权重越大。显而易见,第t-1帧和第t-1帧肯定是最相似的,因为他们完全一样。

    这个步骤得到的w,相当于根据位置信息来计算w,所以叫做空间注意力机制。此时此刻,每个特征的每个通道的每个位置上的值,都有一个属于它的权重w。

2.3.2时间注意力机制

    上面求得的特征肯定是不完全合理的,因为t-1帧的权重最大,而t-1可能是被遮挡的帧,这样的特征权重不应该是最大的。所以本文使用时间注意力机制来进行调整。如下:

如图,T是我们上个步骤获得的所有w组成的数据块。从左往右一共6大份,因为每个特征得出来一份。h为特征的高,w为特征的宽。我们对数据块T从逐通道做一次平均值pooling。这个操作叫做全局平均pooling(global average pooling)。得到的pooling值送入一个三层的全连接网络中,最终得到6个数字。6个数字再分别与上面提到的6大份权重相乘,得到经过时间注意力机制调整之后的最终权重T。

    下图展示了时间注意力机制下得到的6个权重的可视化结果,有遮挡的帧权重就比较低。

2.4求解响应值

    上面的操作得到了权重w,然后求解一个平均特征

    接下来利用得到的特征进行典型的相关滤波计算。

响应值计算:

l表示特征的第l通道。f是学习到的该通道的相应的滤波器。

    简单说一下计算方法。

损失函数如下:

相应的解为

3.实验

3.1网络设置细节

3.2实验结果


登录查看更多
1

相关内容

Attention机制最早是在视觉图像领域提出来的,但是真正火起来应该算是google mind团队的这篇论文《Recurrent Models of Visual Attention》[14],他们在RNN模型上使用了attention机制来进行图像分类。随后,Bahdanau等人在论文《Neural Machine Translation by Jointly Learning to Align and Translate》 [1]中,使用类似attention的机制在机器翻译任务上将翻译和对齐同时进行,他们的工作算是是第一个提出attention机制应用到NLP领域中。接着类似的基于attention机制的RNN模型扩展开始应用到各种NLP任务中。最近,如何在CNN中使用attention机制也成为了大家的研究热点。下图表示了attention研究进展的大概趋势。
【CVPR2020】时序分组注意力视频超分
专知会员服务
31+阅读 · 2020年7月1日
【CMU】基于图神经网络的联合检测与多目标跟踪
专知会员服务
58+阅读 · 2020年6月24日
【斯坦福大学-论文】实体上下文关系路径的知识图谱补全
专知会员服务
88+阅读 · 2020年1月20日
近期必读的9篇 CVPR 2019【视觉目标跟踪】相关论文和代码
必读的7篇IJCAI 2019【图神经网络(GNN)】相关论文-Part2
专知会员服务
61+阅读 · 2020年1月10日
DaSiamRPN的升级版,视觉目标跟踪之SiamRPN++
极市平台
76+阅读 · 2019年2月20日
论文 | 基于RNN的在线多目标跟踪
七月在线实验室
31+阅读 · 2017年12月27日
基于注意力机制的图卷积网络
科技创新与创业
73+阅读 · 2017年11月8日
上下文感知相关滤波跟踪
统计学习与视觉计算组
6+阅读 · 2017年6月17日
Arxiv
27+阅读 · 2018年4月12日
Arxiv
6+阅读 · 2018年2月8日
VIP会员
相关资讯
DaSiamRPN的升级版,视觉目标跟踪之SiamRPN++
极市平台
76+阅读 · 2019年2月20日
论文 | 基于RNN的在线多目标跟踪
七月在线实验室
31+阅读 · 2017年12月27日
基于注意力机制的图卷积网络
科技创新与创业
73+阅读 · 2017年11月8日
上下文感知相关滤波跟踪
统计学习与视觉计算组
6+阅读 · 2017年6月17日
Top
微信扫码咨询专知VIP会员