Single-Shot Object Detection with Enriched Semantics

2018 年 8 月 29 日 统计学习与视觉计算组
Single-Shot Object Detection with Enriched Semantics

CVPR 2018 论文 论文链接 https://arxiv.org/abs/1712.00433

1.摘要

作者提出了名为Detection with Enriched Semantics(DES)的网络,在SSD网络的基础上,增加了语义分割分支(semantic segmentation branch)和全局激活模块(global activation module)。语义分割分使用bounding box级别的ground-truth来监督学习,不需要额外的标注数据。全局激活模块负责学习通道间的关系,学习每个通道的权重。

2.概述

回顾一下SSD的网络结构:

骨干网络使用VGG16,然后使用不用尺寸的feature map预测不同尺度的目标,浅层(从Conv4_3开始)负责预测小目标,深层(到Conv11_2)负责预测大目标。然而浅层网络拥有较少的语义信息,可能导致小目标检测效果不好。

3.方法介绍

为了解决上述问题,作者在SSD的基础上增加了语义分割分支和全局激活模块。整体结构如图:

3.1 语义分割模块

语义分割模块添加在第一个预测层(Conv4_3),其结构如图:

模块的输入为Conv4_3层的feature map,记为X∈R^(C×H×W),分割的ground-truth记为G∈{0,1,2…,N}^(H×W),其中N是类别数量。 图中黄色表示pooling层,kernel大小为3x3,步长为1,padding为1,因此输入输出大小相同。 蓝色的为空洞卷积层,使用3x3的kernel,前三个dilation rate为2,最后一个dilation rate为4。 通过1x1卷积,得到g(X)。接下来有两个分支,如图右侧的表示使用1x1的卷积,然后经过softmax层,预测的实例分割结果,表示为:

其中,Y∈R^((N+1)×H×W),满足:

g(X)另一个分支用于生成带有语义信息的feature map,如图下半部分,使用1x1的卷积得到:

Z的尺寸和通道数与输入X相同,通过按元素相乘,得到语义信息丰富的X':

相乘可以理解为对像素进行激活。接下来用输出的X'替换原来的X,用于后续预测。

下图对语义分割的结果进行可视化:

A表示原图;B表示输入feature map X,可以看出只是一些低层信息;C表示含有语义信息的feature map Z;D表示激活后的feature map X',包含基本的视觉信息和高层的语义信息。

如何生成ground-truth:当像素Ghw在一个bounding box内时,Ghw的标签与bbox相同;当Ghw的位置有超过一个bbox时,Ghw的标签与面积最小的bbox相同;其他的像素认为是背景。下图是一个简单的例子:

3.2 全局激活模块

作者在每一个预测层,都添加了一个全局激活模块,来学习通道与目标类别的关系。该方法在SENet中提出,流程如下图:

先对输入feature map X∈R^(C×H×W) 进行全局平均池化,得到Z∈R^C:

然后通过2个全连接层学习通道权重S:

其中W2∈R^(C×C′),W1∈R^(C′×C) 。接下来S与对应通道中所有元素相乘得到X′∈R^(C×H×W),最后用输出X'代替检测分支中的X,作者设置C′=1/4 C。

3.3 多任务训练

分割部分使用交叉熵损失函数:

其中Y∈[0,1]^((N+1)×H×W) 是预测的分割结果,G∈{0,1,2,…,N}^(H×W) 是分割的ground-truth,N是目标类别个数。 整体的损失为:

其中α为平衡因子。

4.实验

在VOC2007上的实验结果

可以看出效果比使用ResNet101的SSD还要好。

在VOC2012上的实验结果

DES与SSD效果对比

在COCO上的实验结果

可以看出DES针对小目标检测进行的改进是有效果的。

方法有效性验证

实验取α=0表示无监督的进行训练,作者发现α=0.1效果较好。说明对分割任务有监督训练效果要好,同时分割损失不能太大,因为最终任务是目标检测,而不是分割。 为验证分割模块中特征激活的有效性,作者模仿Mask R-CNN,同时输出目标检测和实例分割的结果,取消了特征激活的步骤。实验发现效果没有明显提升,因为分割的ground-truth不包含额外的信息。但是对检测任务来说,特征激活操作是有效果的。

推理速度

检测结果展示


参考资料 

[1] https://arxiv.org/abs/1512.02325 

[2] https://arxiv.org/abs/1709.01507


登录查看更多
13

相关内容

语义分割,在机器学习上,多指对一段文本或者一张图片,提取其中有意义的部分,我们将这些有意义的部分称为语义单元,将这些语义单元提取出来的过程,称为语义分割。

Scene graph construction / visual relationship detection from an image aims to give a precise structural description of the objects (nodes) and their relationships (edges). The mutual promotion of object detection and relationship detection is important for enhancing their individual performance. In this work, we propose a new framework, called semantics guided graph relation neural network (SGRN), for effective visual relationship detection. First, to boost the object detection accuracy, we introduce a source-target class cognoscitive transformation that transforms the features of the co-occurent objects to the target object domain to refine the visual features. Similarly, source-target cognoscitive transformations are used to refine features of objects from features of relations, and vice versa. Second, to boost the relation detection accuracy, besides the visual features of the paired objects, we embed the class probability of the object and subject separately to provide high level semantic information. In addition, to reduce the search space of relationships, we design a semantics-aware relationship filter to exclude those object pairs that have no relation. We evaluate our approach on the Visual Genome dataset and it achieves the state-of-the-art performance for visual relationship detection. Additionally, Our approach also significantly improves the object detection performance (i.e. 4.2\% in mAP accuracy).

0
3
下载
预览

Object detection is a major challenge in computer vision, involving both object classification and object localization within a scene. While deep neural networks have been shown in recent years to yield very powerful techniques for tackling the challenge of object detection, one of the biggest challenges with enabling such object detection networks for widespread deployment on embedded devices is high computational and memory requirements. Recently, there has been an increasing focus in exploring small deep neural network architectures for object detection that are more suitable for embedded devices, such as Tiny YOLO and SqueezeDet. Inspired by the efficiency of the Fire microarchitecture introduced in SqueezeNet and the object detection performance of the single-shot detection macroarchitecture introduced in SSD, this paper introduces Tiny SSD, a single-shot detection deep convolutional neural network for real-time embedded object detection that is composed of a highly optimized, non-uniform Fire sub-network stack and a non-uniform sub-network stack of highly optimized SSD-based auxiliary convolutional feature layers designed specifically to minimize model size while maintaining object detection performance. The resulting Tiny SSD possess a model size of 2.3MB (~26X smaller than Tiny YOLO) while still achieving an mAP of 61.3% on VOC 2007 (~4.2% higher than Tiny YOLO). These experimental results show that very small deep neural network architectures can be designed for real-time object detection that are well-suited for embedded scenarios.

0
7
下载
预览
小贴士
相关资讯
CVPR2019 | FSAF:来自CMU的Single-Shot目标检测算法
极市平台
41+阅读 · 2019年3月8日
理解 YOLO 目标检测
AI研习社
10+阅读 · 2018年11月5日
CornerNet: Detecting Objects as Paired Keypoints 论文笔记
统计学习与视觉计算组
6+阅读 · 2018年9月27日
《pyramid Attention Network for Semantic Segmentation》
统计学习与视觉计算组
40+阅读 · 2018年8月30日
论文笔记之Feature Selective Networks for Object Detection
统计学习与视觉计算组
18+阅读 · 2018年7月26日
Cascade R-CNN 论文笔记
统计学习与视觉计算组
8+阅读 · 2018年6月28日
从YOLOv1到YOLOv3,目标检测的进化之路
AI100
9+阅读 · 2018年6月4日
Relation Networks for Object Detection 论文笔记
统计学习与视觉计算组
16+阅读 · 2018年4月18日
相关VIP内容
相关论文
Object Detection in 20 Years: A Survey
Zhengxia Zou,Zhenwei Shi,Yuhong Guo,Jieping Ye
38+阅读 · 2019年5月13日
Shuhan Chen,Xiuli Tan,Ben Wang,Xuelong Hu
9+阅读 · 2019年4月15日
Wentong Liao,Cuiling Lan,Wenjun Zeng,Michael Ying Yang,Bodo Rosenhahn
3+阅读 · 2019年4月3日
Speeding-up Object Detection Training for Robotics with FALKON
Elisa Maiettini,Giulia Pasquale,Lorenzo Rosasco,Lorenzo Natale
6+阅读 · 2018年8月27日
Ankan Bansal,Karan Sikka,Gaurav Sharma,Rama Chellappa,Ajay Divakaran
6+阅读 · 2018年4月12日
Guanbin Li,Yizhou Yu
5+阅读 · 2018年3月30日
Alexander Wong,Mohammad Javad Shafiee,Francis Li,Brendan Chwyl
7+阅读 · 2018年2月19日
Peng Tang,Chunyu Wang,Xinggang Wang,Wenyu Liu,Wenjun Zeng,Jingdong Wang
6+阅读 · 2018年1月30日
Fanyi Xiao,Yong Jae Lee
4+阅读 · 2017年12月18日
Top