Relation Networks for Object Detection 论文笔记

2018 年 4 月 18 日 统计学习与视觉计算组 安骄阳

CVPR 2018 论文论文链接 https://arxiv.org/abs/1711.11575

本文亮点：

将《Attention Is All You Need》中的 Attention 机制应用到目标检测领域，设计出的目标关系模块很容易的集成到任意网络中。
用目标关系模块代替传统NMS算法进行去重，检测网络完全可以端到端训练。

1.摘要

在视觉领域，我们都知道，建模物体间的关系，有利于目标识别任务。但是在深度学习领域，很少有利用物体关系进行目标识别任务的。本文提出了一种目标关系模块（Object Relation Module），它同时处理一组目标，对目标之间的外观特征关系和位置关系进行建模。该模块的输入输出维度相同（in-place），不需要额外的监督，因此很容嵌入到已有网络中。实验表明，在目标检测网络的目标识别和去重两个阶段添加目标关系模块，可以提高检测精度，并实现完全的端到端目标检测器。

2.介绍

目标关系模块使用了 Attention 机制，基本思想来源于 Google 的一篇 NLP 方向的文章《Attention Is All You Need》（链接：https://arxiv.org/abs/1706.03762）。作者设计的 Attention 权重由两部分组成，外观特征关系权重和空间关系权重。作者将目标关系模块应用到区域特征提取后的 FC 层，使目标特征包含物体间的关系信息，增强目标识别能力。作者还将目标关系模块应用到去重阶段，代替传统的 NMS 算法，提高网络识别精度，同时可以使网络进行端到端的训练，如图1所示。

图1 目标关系模块（红框）应用到实例识别和去重阶段

3.目标关系模块

在 Google 的文章中，称这种 Attention 机制为“Scaled Dot-Product Attention”。计算过程用公式1表示：

输入一个维的 query，一组维的 keys 和一组维的 values。q 与 K 点乘，得到一组相似度，除以以减小数值的规模，防止 Softmax 输出非0即1。通过 Softmax 得到 V 的权重，对 V 加权求和得到一个输出。这里的q，K，V可以为同一种数据，比如都是物体的外观特征。

下面看一下本文是如何将上述公式应用到关系模块的：物体的特征由两部分组成，空间特征（4 维的 RoI 的 bbox 信息）和外观特征（RoI 区域特征，如FC层输出的1024维特征）。输入 N 个物体的特征，第 n 个物体关于其他所有物体的关系特征表示为：

输出是所有外观特征的加权和。是变换矩阵，对特征做线性变换。对应于公式1中的V。表示第 n 个物体与其他物体的关系权重。其计算公式为：

分母是一个归一化项。为外观权重，为空间权重。

外观权重的计算公式为：

其中，均为投影矩阵，将外观特征降投影到维，通过内积比较特征的相似度。对应于公式1中的q，对应于公式1中的K。

空间权重的计算公式为：

分为两步。第一步，先计算两个物体之间的相关空间特征：

上式类似于边界框回归时的计算目标，保证了平移、缩放不变性。接下来使用《Attention Is All You Need》中的方法将4维的相关空间特征嵌入（Embedding）到高维，得到维特征。

第二步，将嵌入的特征与点乘，得到标量的权重，如果权重小于0，则取0。

在目标关系模块中，作者将个关系特征进行连接（concatenate），再加到第n个物体的外观特征上作为模块最后的输出：

这里，假设外观特征是维的，为了使拼接后的特征维度也为，则线性变换矩阵的维度应为。

图2展示了目标关系模块的整个计算流程，蓝色标记的是特征或矩阵的维度大小。

图2 目标关系模块

图中共有个relation块，每一个relation块中，都需要学习四个矩阵 :

因此，一个目标关系模块，参数个数为：

本文中，作者设置=16，=64，=64。输入的proposals数量N=300。

4.应用到目标检测

实例检测阶段

Faster R-CNN，FPN，DCN 等目标检测网络，RoI Pooling 层输出的特征都会与2个全连接层相连，然后预测类别得分和边界框回归。大致流程如图3所示，这里 FC 层输出的维度大小为1024。

图3 目标检测网络分类回归阶段流程

作者在每个 FC 层后，加入目标关系模块，保证输入 N 个 proposals 前后，特征维度不发生变化。大致流程如图4所示。

图4 加入目标关系模块后的流程

网络的检测部分，由 2fc 变为了 2fc+RM（Relation module），网络结构如图5所示。

图5 2fc+RM

去重阶段

作者将去重看作一个二分类问题，其流程如图6所示：

图6 去重阶段流程

在分类和边界框回归分支，网络输出了分类得分 s0 和预测的边界框 bbox。作者先将 N 个物体的得分从大到小排序，每一个物体排序的序号（rank）∈[1,N]。与的处理方式类似，作者将 rank 值嵌入到一个高维空间，维度大小为128。然后将 rank 特征，和 2fc+RM 层之后的1024维的外观特征分别通过矩阵和投影到128维，再按元素相加。将该特征和bbox特征输入到关系模块中，通过矩阵对输出的关系特征线性分类，再使用 Sigmoid 函数得到二分类得分 s1（1表示是正确的bbox，0表示多余的bbox）。最后用 s0*s1 表示最终的分类得分。