拥有时空注意力机制的光流相关滤波跟踪方法

会员服务 ·

拥有时空注意力机制的光流相关滤波跟踪方法

2018 年 4 月 10 日 统计学习与视觉计算组 尚子钰

CVPR2018论文，原文链接：

https://arxiv.org/abs/1711.01124

1.摘要

判别式跟踪方法近来取得了很大的进步，但是判别式方法都是使用当前帧来获取特征，没有充分利用目标的运动信息和帧间信息。所以本文作者使用包含了丰富信息的光流特征来进行目标跟踪。

本文主要贡献有三点：

a)设计了一个端到端地使用光流和相关滤波方法的跟踪框架

b)设计了一个新颖的时空注意力机制，自适应地将当前帧和之前帧特征结合起来

c)在OTB2013、OTB2015、VOT2015、BOT2016实验效果最好

2.具体方法

2.1总体网络框架

总体框架是一个双胞胎网络。然后将前T(实验中，T=6)帧的信息整合起来，最后使用相关滤波方法，计算最终响应值。

2.2光流特征与深度特征缠绕（warp）

如示意图所示，分别将第t-1帧和第t-i帧(i=2,3,4,5,6)送到一个光流网络当中，提取5次光流特征。将所有这几帧图片如第t-1、t-2、...、t-6帧送到神经网络当中，分别提取提取深度特征，(i=1,2,...,6)。最后然后将光流特征与其对应的深度特征进行特征缠绕，操作可以用下式表示，i=2,...,6：

融合后的第i个特征的、第m个通道的、位置p上的数据为

其中，=，是位置p上的光流信息。q是深度特征的所有位置，是q这个位置上的深度特征。K是一个双线性插值核。也就是说，对第i个特征的、第m个通道的、位置p上进行数据缠绕时，要用位置p上的光流信息与所有可能的位置q计算一下K，然后再和所有可能的位置q上的特征一一对应相乘，最后把所有的乘积加起来。

用上面的方法，就可以把光流特征和其对应的深度特征进行数据缠绕，获得5个缠绕后的特征。而第t-1帧的特征直接保留下来，作为第6个特征。这6个特征一起，进行下一步的操作。

2.3自适应权值求解(也就是空间注意力机制和时间注意力机制)

2.3.1空间注意力机制

将上一步得到的6个特征，分别进行一定步骤的bottleneck子网络映射（可以理解为用来缩小数据量的全卷积），得到映射后的特征，按照下面的方法，得到特征i的位置p上的各个通道的权重向量：

其中softmax相当于把权重归一化一下。这里i取t-1到t-6。此处操作，相当于所有特征和t-1帧特征计算一次cos距离，与t-1帧越相似，则权重越大。显而易见，第t-1帧和第t-1帧肯定是最相似的，因为他们完全一样。

这个步骤得到的w，相当于根据位置信息来计算w，所以叫做空间注意力机制。此时此刻，每个特征的每个通道的每个位置上的值，都有一个属于它的权重w。

2.3.2时间注意力机制

上面求得的特征肯定是不完全合理的，因为t-1帧的权重最大，而t-1可能是被遮挡的帧，这样的特征权重不应该是最大的。所以本文使用时间注意力机制来进行调整。如下：

如图，T是我们上个步骤获得的所有w组成的数据块。从左往右一共6大份，因为每个特征得出来一份。h为特征的高，w为特征的宽。我们对数据块T从逐通道做一次平均值pooling。这个操作叫做全局平均pooling(global average pooling)。得到的pooling值送入一个三层的全连接网络中，最终得到6个数字。6个数字再分别与上面提到的6大份权重相乘，得到经过时间注意力机制调整之后的最终权重T。

下图展示了时间注意力机制下得到的6个权重的可视化结果，有遮挡的帧权重就比较低。

2.4求解响应值

上面的操作得到了权重w，然后求解一个平均特征

接下来利用得到的特征进行典型的相关滤波计算。

响应值计算：

l表示特征的第l通道。f是学习到的该通道的相应的滤波器。

简单说一下计算方法。

损失函数如下：

相应的解为

3.实验

3.1网络设置细节

3.2实验结果

登录查看更多

相关内容

注意力机制

关注 120

Attention机制最早是在视觉图像领域提出来的，但是真正火起来应该算是google mind团队的这篇论文《Recurrent Models of Visual Attention》[14]，他们在RNN模型上使用了attention机制来进行图像分类。随后，Bahdanau等人在论文《Neural Machine Translation by Jointly Learning to Align and Translate》 [1]中，使用类似attention的机制在机器翻译任务上将翻译和对齐同时进行，他们的工作算是是第一个提出attention机制应用到NLP领域中。接着类似的基于attention机制的RNN模型扩展开始应用到各种NLP任务中。最近，如何在CNN中使用attention机制也成为了大家的研究热点。下图表示了attention研究进展的大概趋势。

【CVPR2020】时序分组注意力视频超分

专知会员服务

31+阅读 · 2020年7月1日

【CMU】基于图神经网络的联合检测与多目标跟踪

专知会员服务

58+阅读 · 2020年6月24日

【CVPR2020-港科大-腾讯】基于注意力机制及多关系检测器的小样本物体检测

专知会员服务

39+阅读 · 2020年4月6日

【CVPR2020-中科院-腾讯优图】基于注意力卷积二叉神经树的细粒度视觉分类

专知会员服务

26+阅读 · 2020年3月29日