ThunderNet | Two-stage形式的目标检测也可很快而且精度很高

2019 年 12 月 9 日 计算机视觉战队


导读


在移动平台上进行实时通用目标检测是一项至关重要但具有挑战性的计算机视觉任务。然而,以往基于cnn的检测器面临着巨大的计算成本,这阻碍了它们在计算受限的情况下进行实时推断。

今天,我们说的这个研究了two-stage检测器在实时通用检测中的有效性,提出了一种名为ThunderNet的轻量级的two-stage检测器。在主干部分,分析了以往轻量级主干网的不足,提出了一种面向目标检测的轻量级主干网络。在检测部分,开发了一种非常有效的RPN和detection head设计。为了产生更多的判别特征表示,设计了两个有效的体系结构块:上下文增强模块和空间注意力模块。

Context Enhancement Module (CEM)

Spatial Attention Module (SAM)

最后,还研究了输入分辨率、主干网络和detection head之间的平衡。与轻量级one-stage检测器相比,ThunderNet在Pascal、VOC和COCO基准上仅占计算量的40%,实现了更好的性能。没有bells和whistles,新模型在基于ARM设备上运行为24.1 fps。这是第一个在ARM平台上报告的实时检测器。

背景介绍

在移动设备上的实时通用对象检测是计算机视觉中的一个重要但具有挑战性的任务。与服务器类GPU相比,移动设备的计算受到限制,并对检测器的通信成本有更严格的限制。然而,基于CNN的现代检测器是资源匮乏的,需要大量的压缩才能达到理想的检测精度,这阻碍了它们在移动场景中的实时推理。

移动端的检测效果
从网络结构的角度来看,基于CNN的检测器可以被分成用于图像的前区域特征的主干部分和检测图像中的目标实例的检测部分。在主干部分中,现有技术的检测器倾向于利用巨大的分类网络(例如Resnet-101)和大的输入图像(例如800或1200像素),这需要大量的计算成本。
近年来,轻量级图像分类网络在GPU上实现了实时目标检测。然而,在图像分类和目标检测之间存在若干差异。例如,目标检测需要大的感受野和低级别的特征(底层特征),以提高定位能力,这对于图像分类来说是不重要的。这两个任务之间的间隙限制了这些骨架对物体检测的性能,并且阻碍了进一步的压缩而不损害检测精度。

另一方面,one-stage检测器直接预测边界框和类的概率。该类别的检测部分由用于预测的附加层组成,这通常需要很少的计算。因此one-stage检测器被广泛认为是实时检测的关键。然而,由于one-stage检测器不进行ROI方向的特征提取和识别,其结果比two-stage检测器的结果要低的多。对于轻量级检测器来说,这一问题更加严重。以前的轻量级one-stage检测器没有达到理想的精度/速度折衷:它们与大型检测器之间存在巨大的交流差距,而它们却无法在移动设备上实现实时检测。它促使我们重新思考:two-stage探测器能否实时检测?

新框架

Input Resolution

two-stage检测器的输入分辨率通常很大,例如FPN使用800×800像素的输入。它带来了许多优点,但也带来了巨大的计算成本。为了提高推理速度,ThunderNet采用320×320像素的输入分辨率。此外,在实践中,观察到输入分辨率应该与主干网的能力相匹配。大输入的小主干和小输入的大主干都不是最优的。

Context Enhancement Module
Light-head R-CNN应用全局卷积网络(GCN)生成薄的特征图。它显著地增加了感受野,但涉及巨大的计算成本。与SNet146耦合,GCN需要由主干(596m vs.298m)所需的触发器中的2个。
因此,决定在ThundNet中放弃这种设计。然而,网络遭受小的感受野,并且不能编码足够的上下文信息。解决这个问题的通用技术是特征金字塔网络(FPN)。然而,现有的FPN结构涉及许多额外的卷积和多个检测分支,这增加了通信成本并诱导了巨大的运行时的等待时间。为此,新框架设计了一个高效的上下文增强模块(CEM),以扩大感受野。CEM的核心思想是聚合多尺度局部上下文信息和全局上下文信息,以产生更多分散的特征。
在CEM中,来自三个标度的特征映射被合并:C4、C5和Cglb。Cglb是通过在C5上应用全局平均池化的全局上下文特征向量。然后,对每个特征映射应用1x1卷积,以将通道的数量挤压为P=245。之后,C5被向上采样2个,并且Cglb被Broadcast,使得三个特征映射的空间维度是相等的。
最后,对这三个生成的特征图进行标记。通过利用局部和全局上下文,CEM有效地扩大了感受野,并细化了精简特征映射的表示能力。与现有的FPN结构相比,CEM仅涉及两个1X1卷积和FC层,这更便于计算。上图说明了该模块的结构。

Spatial Attention Module

在ROI warping过程中,将背景区域中的特征扩展为小区域和前景区域变大。然而,与大型模型相比,由于ThunderNet使用了轻量级的主干和较小的输入图像,因此网络本身很难学习到合适的特征分布。

为此设计了一个计算友好型空间注意力模块(SAM),在ROI对空间维数进行warping之前,可以显式地重新加权特征图。SAM的核心思想是利用RPN中的知识来细化特征图的特征分布。RPN被训练用于在GT的超分辨下识别前景区域。因此,RPN中的中间特征可以用来区分前景特征和背景特征。

实验结果

PASCAL VOC数据集由来自20个类的自然图像组成。这些网络是在VOC2007训练和VOC2012训练的联合集合上进行训练的,在VOC2007测试中重新获得了single-model的结果,结果如下表所示:

下表是在COCO数据集的结果:

检测结果可视化

COCO Test-dev上轻量级主干的评估。SNet 146虽然分类精度较低,但检测结果较好。

RoI warping前的特征图可视化。 空间注意力模块(SAM)增强了前景区域中的特征,并削弱了背景区域中的特征。

今天就先讲这些吧,有兴趣的同学请时刻关注我们。
论文地址: https://arxiv.org/pdf/1903.11752.pdf

END

如果想加入我们“计算机视觉战队”,请扫二维码加入学习群。计算机视觉战队主要涉及机器学习、深度学习等领域,由来自于各校的硕博研究生组成的团队,主要致力于人脸检测、人脸识别,多目标检测、目标跟踪、图像分割等研究方向。

我们开创一段时间的“计算机视觉协会”知识星球,也得到很多同学的认可,我们定时会推送实践型内容与大家分享,在星球里的同学可以随时提问,随时提需求,我们都会及时给予回复及给出对应的答复。

微信学习讨论群也可以加入,我们会第一时间在该些群里预告!

登录查看更多
0

相关内容

【CVPR 2020-商汤】8比特数值也能训练卷积神经网络模型
专知会员服务
25+阅读 · 2020年5月7日
专知会员服务
160+阅读 · 2020年4月21日
CVPR2020 | 商汤-港中文等提出PV-RCNN:3D目标检测新网络
专知会员服务
43+阅读 · 2020年4月17日
【ICLR-2020】网络反卷积,NETWORK DECONVOLUTION
专知会员服务
38+阅读 · 2020年2月21日
深度神经网络模型压缩与加速综述
专知会员服务
128+阅读 · 2019年10月12日
ICCV 2019 | 精确的端到端的弱监督目标检测网络
AI科技评论
11+阅读 · 2019年12月9日
FoveaBox,超越Anchor-Based的检测器
极市平台
10+阅读 · 2019年4月22日
基于手机系统的实时目标检测
计算机视觉战队
8+阅读 · 2018年12月5日
哇~这么Deep且又轻量的Network,实时目标检测
计算机视觉战队
7+阅读 · 2018年8月15日
ECCV 2018 | CornerNet:目标检测算法新思路
极市平台
13+阅读 · 2018年8月11日
【CVPR2018】物体检测中的结构推理网络
深度学习大讲堂
6+阅读 · 2018年7月30日
Arxiv
12+阅读 · 2019年1月24日
Arxiv
6+阅读 · 2018年7月9日
Arxiv
8+阅读 · 2018年4月8日
Arxiv
8+阅读 · 2018年1月12日
Arxiv
4+阅读 · 2016年12月29日
VIP会员
相关VIP内容
【CVPR 2020-商汤】8比特数值也能训练卷积神经网络模型
专知会员服务
25+阅读 · 2020年5月7日
专知会员服务
160+阅读 · 2020年4月21日
CVPR2020 | 商汤-港中文等提出PV-RCNN:3D目标检测新网络
专知会员服务
43+阅读 · 2020年4月17日
【ICLR-2020】网络反卷积,NETWORK DECONVOLUTION
专知会员服务
38+阅读 · 2020年2月21日
深度神经网络模型压缩与加速综述
专知会员服务
128+阅读 · 2019年10月12日
相关资讯
Top
微信扫码咨询专知VIP会员