ICCV 2019 开源论文 | 适用于视频分割的全新Attention机制

2019 年 11 月 9 日 PaperWeekly

本文针对视频目标分割问题（VOS [1]）设计了一种全新的 Ranking Attention Network（RANet）。网络采用 encoder-decoder 结构整合 matching 和 propagation 方法，并提出了一种全新的 Ranking Attention 模块，能在前景/背景像素数量动态变化的情况下整合、筛选特征，使网络能高效利用匹配得到的特征，无缝连接匹配和分割网络。

RANet 在多个数据集取得了相当好的结果，对比 CVPR 2019 的 SiamMask [2] 算法，同样达到实时的情况下在 DAVIS16 数据集上高出了约 15 个百分点。在这里我们将对视频目标分割领域做一些简要介绍，梳理一下该领域的一些主流思路，并介绍 RANet 与 Ranking Attention 模块的设计思路及特点。

Github 链接：

https://github.com/Storife/RANet

VOS背景简介

视频目标分割（VOS）主要有无监督（Un-supervise）和半监督（Semi-supervise) 以及后来的交互式视频分割，这里我们仅讨论 Semi-supervised VOS 任务，即在预测的时候给定了第一帧的 ground truth，用于指定特定的待分割目标，要求在整个视频中分割出该目标。

早期的文章主要基于 online learning，mask propagation，以及 pixel-level matching，下面我们对以下几种思路做一些简要的分析：

1. 基于在线学习（online learning）的方法主要代表作有 OSVOS，OnAVOS，他们通过直接在给定的第一帧 mask 上微调，“记住”要分割的目标。这些方法比较有效，但是缺点也是显而易见的——速度慢。但是好处是，online learning 技术几乎可以用于所有方法上用于提升算法性能，并且近期也出现了一些论文 [3] 探讨怎样加快网络的在线学习。

2. 基于传播（mask propagation）的主流方法有 Masktrack，RGMP 等等，即在预测当前帧的时候，加入了之前帧的信息，最常用的也是最简单的方法是在网络中加入上一帧的 mask 预测结果。这种方法能够很好地适应连续地、复杂地变化，如物体的旋转等。但是当出现遮挡情况时会对算法有较大影响。为了解决这一影响，Masktrack 加入了 online learning 技术，RGMP 将第一帧的特征和当前帧特征级联，这样能在跟丢的情况下找回目标。

3. 基于匹配（matching）的代表方法主要有 PML，Videomatch 等。他们基于 Siamese 构架，提取第一帧和当前帧特征，做像素级别的匹配。由于是将目标拆分为 pixel 进行匹配，所以基于 matching 的方法对物体的形变、遮挡有较好的鲁棒性。但是当物体出现新的视觉表征的时候，比如旋转到背面，就会出现无法匹配的问题。

以上提到的一些方法，都可以在 DAVIS 官网 [4] 找到。

如何设计一个快速有效的方法

通过以上讨论，发现 matching 和 propagation 的方法一定程度上是互补的，一个注重视觉感官信息，一个是时序信息。而 online learning 也是一种视觉感官上的记忆，同时兼顾了不同 video 上的 domain 自适应，在微调后对特定物体能提取更好的特征。但是它相比 matching 方法更耗时一些。RANet 在设计时同时考虑到了速度和性能，自然地选择了结合 matching 和 propagation 方法。

从图一可以看到，RANet 的编码器是一个基于匹配的网络，而解码器拥有 propagation 的功能。那么将这两部分网络融合关键问题就是如何在 propagation 的同时，利用 matching 得到的特征，使网络同时考虑视觉特征和时序信息，而 Ranking Attention 模块正是解决这一问题的关键所在。

网络的整体结构并不复杂，主要由三部分构成。第一部分是 encoder，是一个 Siamese 网络负责特征提取。然后是 Correlation 和 Ranking Attention 模块，主要任务是像素点的特征匹配，并整合为可解码的视觉相似度特征。最后是 decoder，负责融合视觉特征和时序特征并得到分割结果。

可以看到网络的关键部分在于 Pixel-level Correlation 和 Ranking Attention 模块部分，首先我们来看看 correlation 模块。

图示很简单，每一个像素的计算方式类似于 tracking 领域经典的 SiamFC 算法，即将第一帧特征的每一个像素，视作一个模板（template），去与第 t 帧做 correlation，这样每一个第一帧的前景、背景像素去与第 t 帧匹配后，都会得到一个相似度图（similarity map）。

那么，如果第一帧有 N1 个前景像素，就会得到 N1 个前景 similarity map，N0 个背景像素就会得到 N0 个背景 similarity map。那么问题来了，N1 和 N0 是随着视频的不同而不同的，那么前景和背景通路的 similarity map 就是不一样的，这会导致无法直接输入 decoder 网络解码分割的问题。

一般的基于匹配的方法是采用了计算极值的方法，即把前景和背景的相似度特征图都分别压缩成一张特征图，这样虽然可以得到结果，但是会丢失大量的信息。因此，文章提出了一种全新的 Ranking Attention 机制解决这一问题。

RAM（Ranking Attention Module）也可以分为三个步骤，首先是筛选前景、背景相似度图，即前景通道只处理前景相似度图，背景通道只处理背景相似度图。

第二步是通过一个简单的小网络学习一个衡量特征图重要性的权重相量。这里使用了 global max pooling 操作，因为这里面有一个先验信息，就是相似度越大，匹配越准确，那么这张 similarity map 也就会越重要。而有些目标的一些 pixel，在第一帧存在，而在第 t 帧被遮挡或消失了，那么这个像素在第 t 帧就无法匹配，表现出来就是它的 similarity map 值偏低，那么 pooling 后的值也低，也就是说这一张 similarity map 不重要。

有了衡量重要性的权重（ranking score）之后，下一步就是对 similarity map 进行排序了，即根据每张图的 ranking score，从大到小地对 similarity map 进行排序，并设置一个 channel size 的目标值（这里设为 256），如果不足 256，则填充补全，多于 256，则丢弃。这样的结果就是，特征的大部分信息得以保全，丢弃的是无关信息，而最后得到的特征尺寸也得以固定，可以直接用于分割。

实验对比

RANet 在 DAVIS 数据集上与众多方法做了对比，可以看到 RANet 的性能（85.5 J&F mean）高于所有 offline 的方法，并比很多使用了 online learning 的方法更好，与最好的 PReMVOS 仅相差一个点。在加入 online learning 之后达到了 state-of-the-art 的结果，同时速度上依然保持优势。

上图是一个时间和速度的坐标图，可以看到 RANet 在性能和速度上取得了很好地平衡。在速度上比 RANet 快的方法只有 SiamMask 算法，但是性能上 RANet 有了极大的提升。

Ranking Attention模块测评

文章对 Ranking Attention 模块进行了测评，可以看到相比其他两种 baseline 都有了很大的提升，说明 RAM 对于特征的利用更高效。

训练方式

RANet 的训练分为两步，第一步是用静态图像预训练，第二步是使用 DAVIS 视频数据做微调。由于 DAVIS 视频数据样本较少，训练样本不足的情况下容易发生过拟合。大部分算法采取的办法是将语义分割训练好的网络直接拿过来做 backbone，如 Deeplab 系列，这样网络就有较好的泛化性能，在 DAVIS 上微调之后也可以有较好的泛化性能。

但是，语义分割网络大多使用了 dilated 卷积，特征图较大，这会导致 backbone 本身速度较慢。RANet 选择了标准的 ResNet 作为 backbone，在静态图像数据集上进行预训练，这样可以保证网络得到充分训练，并拥有一定的泛化性能。

通过下表可以看到，在 DAVIS-trainval 数据上，仅使用静态图像训练的 RANet 也取得了非常好的效果，而现有大多数方法都需要使用视频数据进行训练。

处理多目标视频

和大多数方法一样，RANet 主要是针对单目标视频分割而设计的。对于多目标视频，很多方法是对每个目标分别预测并整合得到的，但是这样会的效率会比较低下。

RANet 在处理多目标数据的时候，共享了 encoder 提取的特征，然后针对每个目标分别用 decoder 分割，最后再整合。由于 RANet 主要的计算量集中在 encoder 部分，因此 RANet 在处理多目标视频时依然可以保持较快的速度。

探讨1：Ranking Attention与传统Attention机制

传统的 Attention 机制，最基础的如 soft attention，通过改变每个特征的权重来实现注意力机制；hard attention 则选择特定的特征通过网络，而丢弃一部分特征；self attention 则通过自身的相关度来调整特征的权重。本质上来说，传统 Attention 机制是根据输入动态地调整特征的权重来实现选择性注意，而 RANet 的 Ranking Attention 实现机制则不同，是通过调整特征图的位置次序来实现选择性注意。

也就是说，特征图的值并不发生改变，只是他们的位置次序变了，而在训练好之后，每个位置对于网络的重要性并不一样，也就变向地实现了选择性注意，是一种新的 Attention 机制。

探讨2：Ranking Attention机制有什么优点？可以用在什么地方？

Ranking Attention 与一般 Attention 机制有较大区别，也有一定的适用条件及特点。首先，Ranking Attention 能对特征进行重排，丢掉或者填充一些特征，同时具有 soft attention 和 hard attention 的特点。

但是，也正是由于 Ranking Attention 模块需要对特征进行重新排序，那么，特征的顺序本身就不能编码任何信息。例如分类任务，channel 这一维度大多包含了类别的语义信息，使用 Ranking Attention 就会将特征顺序打乱，丢掉语义信息而无法完成任务。

那么，在 RANet 中，Ranking Attention 模块去掉了什么信息呢？答案是第一帧的空间信息。由于视频中物体姿态和背景都是动态变化的，而保留第一帧的空间信息将很有可能导致网络过拟合，特别是静态图像训练阶段。

基于 Ranking Attention 模块的一些特性，我们可以针对特定的任务做一些特定的改动，实现一些有意思的功能，欢迎讨论与合作。

相关链接

[1] https://davischallenge.org/

[2] https://zhuanlan.zhihu.com/p/58154634

[3] https://arxiv.org/abs/1904.08630

[4] https://davischallenge.org/davis2016/soa_compare.html

点击以下标题查看更多往期内容：

#投稿通道#

让你的论文被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学习心得或技术干货。我们的目的只有一个，让知识真正流动起来。

📝 来稿标准：

• 稿件确系个人原创作品，来稿需注明作者个人信息（姓名+学校/工作单位+学历/职位+研究方向）

• 如果文章并非首发，请在投稿时提醒并附上所有已发布链接

• PaperWeekly 默认每篇文章都是首发，均会添加“原创”标志

📬 投稿邮箱：

• 投稿邮箱：hr@paperweekly.site

• 所有文章配图，请单独在附件中发送

• 请留下即时联系方式（微信或手机），以便我们在编辑发布时和作者沟通

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

关于PaperWeekly

PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域，欢迎在公众号后台点击「交流群」，小助手将把你带入 PaperWeekly 的交流群里。

▽ 点击 | 阅读原文 | 下载论文 & 源码

登录查看更多

相关内容

注意力机制

关注 120

Attention机制最早是在视觉图像领域提出来的，但是真正火起来应该算是google mind团队的这篇论文《Recurrent Models of Visual Attention》[14]，他们在RNN模型上使用了attention机制来进行图像分类。随后，Bahdanau等人在论文《Neural Machine Translation by Jointly Learning to Align and Translate》 [1]中，使用类似attention的机制在机器翻译任务上将翻译和对齐同时进行，他们的工作算是是第一个提出attention机制应用到NLP领域中。接着类似的基于attention机制的RNN模型扩展开始应用到各种NLP任务中。最近，如何在CNN中使用attention机制也成为了大家的研究热点。下图表示了attention研究进展的大概趋势。

【DeepMind硬核课】卷积神经网络图像识别前沿进展，附110页ppt与视频

专知会员服务

105+阅读 · 2020年6月27日

【CMU】基于图神经网络的联合检测与多目标跟踪

专知会员服务

58+阅读 · 2020年6月24日

【CVPR2020-港科大-腾讯】基于注意力机制及多关系检测器的小样本物体检测

专知会员服务

39+阅读 · 2020年4月6日

[CVPR 2020 Oral-牛津] RandLA-Net:大场景三维点云语义分割新框架

专知会员服务

26+阅读 · 2020年3月15日