Relation Networks for Object Detection 论文笔记

2018 年 4 月 18 日 统计学习与视觉计算组 安骄阳
Relation Networks for Object Detection 论文笔记

CVPR 2018 论文 论文链接 https://arxiv.org/abs/1711.11575

本文亮点:

  • 将《Attention Is All You Need》中的 Attention 机制应用到目标检测领域,设计出的目标关系模块很容易的集成到任意网络中。

  • 用目标关系模块代替传统NMS算法进行去重,检测网络完全可以端到端训练。

1.摘要

在视觉领域,我们都知道,建模物体间的关系,有利于目标识别任务。但是在深度学习领域,很少有利用物体关系进行目标识别任务的。本文提出了一种目标关系模块(Object Relation Module),它同时处理一组目标,对目标之间的外观特征关系和位置关系进行建模。该模块的输入输出维度相同(in-place),不需要额外的监督,因此很容嵌入到已有网络中。实验表明,在目标检测网络的目标识别去重两个阶段添加目标关系模块,可以提高检测精度,并实现完全的端到端目标检测器。

2.介绍

目标关系模块使用了 Attention 机制,基本思想来源于 Google 的一篇 NLP 方向的文章《Attention Is All You Need》(链接:https://arxiv.org/abs/1706.03762)。作者设计的 Attention 权重由两部分组成,外观特征关系权重空间关系权重。 作者将目标关系模块应用到区域特征提取后的 FC 层,使目标特征包含物体间的关系信息,增强目标识别能力。作者还将目标关系模块应用到去重阶段,代替传统的 NMS 算法,提高网络识别精度,同时可以使网络进行端到端的训练,如图1所示。

图1 目标关系模块(红框)应用到实例识别和去重阶段

3.目标关系模块

在 Google 的文章中,称这种 Attention 机制为“Scaled Dot-Product Attention”。计算过程用公式1表示:

输入一个维的 query,一组维的 keys 和一组维的 values。q 与 K 点乘,得到一组相似度,除以以减小数值的规模,防止 Softmax 输出非0即1。通过 Softmax 得到 V 的权重,对 V 加权求和得到一个输出。这里的q,K,V可以为同一种数据,比如都是物体的外观特征。


下面看一下本文是如何将上述公式应用到关系模块的: 物体的特征由两部分组成,空间特征(4 维的 RoI 的 bbox 信息)和外观特征(RoI 区域特征,如FC层输出的1024维特征)。输入 N 个物体的特征,第 n 个物体关于其他所有物体的关系特征表示为:

输出是所有外观特征的加权和。是变换矩阵,对特征做线性变换。对应于公式1中的V表示第 n 个物体与其他物体的关系权重。其计算公式为:

分母是一个归一化项。为外观权重,为空间权重。

外观权重的计算公式为:

其中均为投影矩阵,将外观特征降投影到维,通过内积比较特征的相似度。对应于公式1中的q对应于公式1中的K

 空间权重的计算公式为:

分为两步。第一步,先计算两个物体之间的相关空间特征:

上式类似于边界框回归时的计算目标,保证了平移、缩放不变性。接下来使用《Attention Is All You Need》中的方法将4维的相关空间特征嵌入(Embedding)到高维,得到维特征

第二步,将嵌入的特征与点乘,得到标量的权重,如果权重小于0,则取0。


在目标关系模块中,作者将个关系特征进行连接(concatenate),再加到第n个物体的外观特征上作为模块最后的输出:

这里,假设外观特征维的,为了使拼接后的特征维度也为,则线性变换矩阵的维度应为


图2展示了目标关系模块的整个计算流程,蓝色标记的是特征或矩阵的维度大小。

图2 目标关系模块

图中共有个relation块,每一个relation块中,都需要学习四个矩阵 :

因此,一个目标关系模块,参数个数为:

本文中,作者设置=16,=64,=64。输入的proposals数量N=300。

4.应用到目标检测

实例检测阶段

Faster R-CNN,FPN,DCN 等目标检测网络,RoI Pooling 层输出的特征都会与2个全连接层相连,然后预测类别得分和边界框回归。大致流程如图3所示,这里 FC 层输出的维度大小为1024。

图3 目标检测网络分类回归阶段流程

作者在每个 FC 层后,加入目标关系模块,保证输入 N 个 proposals 前后,特征维度不发生变化。大致流程如图4所示。

图4 加入目标关系模块后的流程

网络的检测部分,由 2fc 变为了 2fc+RM(Relation module),网络结构如图5所示。

图5 2fc+RM

去重阶段

作者将去重看作一个二分类问题,其流程如图6所示:

图6 去重阶段流程

在分类和边界框回归分支,网络输出了分类得分 s0 和预测的边界框 bbox。作者先将 N 个物体的得分从大到小排序,每一个物体排序的序号(rank)∈[1,N]。与的处理方式类似,作者将 rank 值嵌入到一个高维空间,维度大小为128。然后将 rank 特征,和 2fc+RM 层之后的1024维的外观特征分别通过矩阵投影到128维,再按元素相加。将该特征和bbox特征输入到关系模块中,通过矩阵对输出的关系特征线性分类,再使用 Sigmoid 函数得到二分类得分 s1(1表示是正确的bbox,0表示多余的bbox)。最后用 s0*s1 表示最终的分类得分。

去重阶段正负样本选取:对于每一个 ground truth box,选取边界框回归阶段 IoU ≥η 的框中得分最高的为正样本,其他为负样本。

s0*s1 的设计很巧妙,避免了正负样本不平衡的问题,对于负样本,损失函数为:

反向传播的梯度为:

由于负样本 s0 很小,因此对优化目标影响很小。

在实践中,去重网络使用 GPU 执行,耗时约为 2ms。NMS 和 Soft NMS 使用 CPU 执行,耗时约为 5ms。

5.实验

验证检测阶段的效果

作者将使用两个FC层的网络设为baseline。

(1)空间特征 为了验证空间特征的有效性,作者设计了3组实验。将空间关系权重置为1,记为 none;将空间特征嵌入到高维,维度与相同,然后将该特征与相加,记为 unary。实验结果如表1(a)所示。

 (2)关系数量 

结果如表1(b)所示。

 (3)关系模块的数量 分别在两个FC层后添加不同数量的关系模块,实验结果如表1(c)所示。


效果的提升是来自参数和层数的增加吗?

表2对比了不同深度,宽度的网络结构。


验证去重阶段效果

表3验证了去重网络所使用的特征是否有效。可以看出rank特征和bbox特征起了很重要的作用。


表4与NMS算法进行对比

端到端的目标识别

作者使用不同的检测框架,进行对比。每一个网络框架,分别使用了 2fc head+SoftNMS -> 2fc+RM head+SoftNMS -> 2fc+RM head+e2e(end-to-end)三种网络结构。实验结果如表5所示。


登录查看更多
16

相关内容

目标识别是指一个特殊目标(或一种类型的目标)从其它目标(或其它类型的目标)中被区分出来的过程。它既包括两个非常相似目标的识别,也包括一种类型的目标同其他类型目标的识别。

Conventional methods for object detection typically require a substantial amount of training data and preparing such high-quality training data is very labor-intensive. In this paper, we propose a novel few-shot object detection network that aims at detecting objects of unseen categories with only a few annotated examples. Central to our method are our Attention-RPN, Multi-Relation Detector and Contrastive Training strategy, which exploit the similarity between the few shot support set and query set to detect novel objects while suppressing false detection in the background. To train our network, we contribute a new dataset that contains 1000 categories of various objects with high-quality annotations. To the best of our knowledge, this is one of the first datasets specifically designed for few-shot object detection. Once our few-shot network is trained, it can detect objects of unseen categories without further training or fine-tuning. Our method is general and has a wide range of potential applications. We produce a new state-of-the-art performance on different datasets in the few-shot setting. The dataset link is https://github.com/fanq15/Few-Shot-Object-Detection-Dataset.

0
13
下载
预览

Although it is well believed for years that modeling relations between objects would help object recognition, there has not been evidence that the idea is working in the deep learning era. All state-of-the-art object detection systems still rely on recognizing object instances individually, without exploiting their relations during learning. This work proposes an object relation module. It processes a set of objects simultaneously through interaction between their appearance feature and geometry, thus allowing modeling of their relations. It is lightweight and in-place. It does not require additional supervision and is easy to embed in existing networks. It is shown effective on improving object recognition and duplicate removal steps in the modern object detection pipeline. It verifies the efficacy of modeling object relations in CNN based detection. It gives rise to the first fully end-to-end object detector.

0
3
下载
预览
小贴士
相关资讯
Fully-Convolutional Siamese Networks for Object Tracking论文笔记
统计学习与视觉计算组
8+阅读 · 2018年10月12日
CornerNet: Detecting Objects as Paired Keypoints 论文笔记
统计学习与视觉计算组
6+阅读 · 2018年9月27日
Single-Shot Object Detection with Enriched Semantics
统计学习与视觉计算组
13+阅读 · 2018年8月29日
论文笔记之Feature Selective Networks for Object Detection
统计学习与视觉计算组
18+阅读 · 2018年7月26日
Cascade R-CNN 论文笔记
统计学习与视觉计算组
8+阅读 · 2018年6月28日
RASNet 论文笔记
统计学习与视觉计算组
10+阅读 · 2018年4月26日
Mask R-CNN 论文笔记
统计学习与视觉计算组
10+阅读 · 2018年3月22日
Focal Loss for Dense Object Detection
统计学习与视觉计算组
11+阅读 · 2018年3月15日
论文浅尝 | Distant Supervision for Relation Extraction
开放知识图谱
4+阅读 · 2017年12月25日
相关VIP内容
相关论文
Few-Shot Object Detection with Attention-RPN and Multi-Relation Detector
Qi Fan,Wei Zhuo,Chi-Keung Tang,Yu-Wing Tai
13+阅读 · 2020年3月31日
Augmentation for small object detection
Mate Kisantal,Zbigniew Wojna,Jakub Murawski,Jacek Naruniec,Kyunghyun Cho
8+阅读 · 2019年2月19日
Mengshi Qi,Weijian Li,Zhengyuan Yang,Yunhong Wang,Jiebo Luo
3+阅读 · 2018年11月26日
Exploring Visual Relationship for Image Captioning
Ting Yao,Yingwei Pan,Yehao Li,Tao Mei
14+阅读 · 2018年9月19日
Pengchong Jin,Vivek Rathod,Xiangxin Zhu
6+阅读 · 2018年7月9日
Han Hu,Jiayuan Gu,Zheng Zhang,Jifeng Dai,Yichen Wei
3+阅读 · 2018年6月14日
Chao Ma,Jia-Bin Huang,Xiaokang Yang,Ming-Hsuan Yang
10+阅读 · 2018年3月23日
Pengkai Zhu,Hanxiao Wang,Tolga Bolukbasi,Venkatesh Saligrama
5+阅读 · 2018年3月19日
Fanyi Xiao,Yong Jae Lee
4+阅读 · 2017年12月18日
Top