参数少一半、速度快3倍:最新目标检测核心架构来了

2019 年 8 月 15 日 机器之心

选自arXiv

作者:Abdullah Rashwan、Agastya Kalra、Pascal Poupart
机器之心编译
机器之心编辑部
这是一个「矩阵网络」,它的参数少、效果好、训练快、显存占用低。 将这样的架构加载到目标检测中,嗯,超越 SOTA 检测器不是梦。
论文链接:https://arxiv.org/abs/1908.04646

研究者在这篇论文中提出了 Matrix Net (xNet),它是一种用于目标检测的深度架构。 研究者利用 xNet 加强基于关键点的目标检测,并且在 MS COCO 数据集上获得了 47.8 的 mAP,这比其它任何一步(single-shot)检测器效果都要好,而且参数量减半。 重要的是,相比效果第二好的架构,xNets 在训练上要快了 3 倍。


如下图所示,很明显 xNet 的参数效率要超过其它模型。 其中 FSAF 在基于锚点的检测器中效果是最好的,它超过了经典的 RetinaNet。 而在基于关键点的目标检测器中,18 年提出的 CornerNet 是「开山之作」,今年又沿着它提出了 CenterNet。 这些非常厉害的 single-shot 检测器看起来效果都不如 xNet。

图 1: 一步检测架构在 MSCOCO 测试集上的模型大小(参数量)vs 准确率(平均精度)。 借助于 MatrixNet 主干,本文作者提出的模型在参数量类似的情况下性能超过了所有其他 single-shot 架构。


在这篇论文中,xNet 用于基于关键点的目标检测就构成了 KP-xNet,后文会继续介绍它的结构,但这里主要关注它的性能。 其实基于关键点的目标检测近来也是一个热点,通过几个关键点确定边界框,这确实非常简洁优雅。


以前性能最好的是 CenterNet,它在 COCO 数据集上能获得 47.0 的 mAP,但是 KP-xNet 只需要一半的参数量、1/3 的迭代数量、1/2 的 GPU 内存,就能获得额外 5.7% mAP 的效果提升。

表 1: 本文提出的架构与其他架构在 MSCOCO 数据集上的实验对比结果。 如图所示,以 ResNext-101-X 为主干的最终模型 KP-xNet(MultiScale)mAP 值最高,比原始 CornerNet(MultiScale)架构高 5.7%。


目标检测需要什么样的架构


目标检测架构可以分为两类: 一步检测架构和两步检测架构。 两步检测利用候选区域网络寻找固定数量的候选目标,然后再用第二个网络来预测每个候选目标的得分并修改边界框。


一步检测架构还可以分为两类: 基于锚点的检测架构和基于关键点的检测架构。


  • 基于锚点的检测架构包含许多锚框,预测每个模板的偏移量和类别,其中最著名的就是 RetinaNet。

  • 基于关键点的检测架构预测左上角和右下角的热图,并用特征嵌入将其合在一起,CornerNet 就是基于关键点检测中非常经典的架构。


检测不同尺度的目标是目标检测任务的一大挑战。 特征金字塔网络(FPN)是多尺度架构领域取得的最大进展之一。 尽管 FPN 为处理不同大小的目标提供了一种优雅的方法,但它并没有为不同宽高比的目标提供任何解决方案。


为了解决这一问题。 研究者引入了一种新的 CNN 架构——Matrix Network,这一架构能够同时解决目标尺度和宽高比不同的问题。 如下图 2 所示,xNet 拥有若干矩阵层,每一层负责处理一种特定大小和宽高比的目标。 xNet 将不同大小和宽高比的目标分配到各个层,以确保在其分配的层中目标大小接近一致。 这使得方形的输出卷积核可以从各种宽高比和大小的目标中收集信息。 和 FPN 类似,xNet 可以应用到不同的主干上。

图 2: (a)是原始的 FPN 架构,这一架构对每种尺度都分配了不同的输出层。 (b)是 MatrixNet 架构,这一架构将 5 个 FPN 层视为矩阵中的对角层,通过下采样这些层来填充矩阵的其余部分。


Matrix Nets 是什么


如图 2 所示,Matrix nets(xNets)使用分层矩阵建模具有不同大小和宽高比的目标,其中矩阵中的每个条目 i、j 表示一个层 l_i,j,矩阵左上角层 l_1,1 中宽度降采样 2^(i-1),高度降采样 2^(j-1)。 对角层是不同大小的方形层,相当于一个 FPN,而非对角层是矩形层(这是 xNets 所特有的)。


层 l_1,1 是最大的层,每向右一步,层宽度减半,而每向下一步高度减半。 例如,层 l_3,4 是层 l_3,3 宽度的一半。 对角层建模宽高比接近方形的目标,而非对角层建模宽高比不接近方形的目标。 接近矩阵右上角或左下角的层建模宽高比极高或极低的目标。 这类目标非常罕见,所以可以对它们进行剪枝以提升效率。


1. 层生成


生成矩阵层是影响模型参数数量的关键步骤。 参数越多,模型的表达能力越强,但优化也越困难,所以研究者尽可能少地采用新参数。


2. 层范围


矩阵中的每层都对一定宽度和高度的目标进行建模,所以研究者需要限定矩阵中每层宽度和高度的范围,并且范围需要反映矩阵层特征向量的感受野。

3.Matrix Nets 的优点


Matrix Nets 的主要优点是: 它可以让方形卷积核准确地收集不同宽高比的信息。 因此基于这个特点,MatrixNets 可作为任何目标检测的主架构,包括基于锚点或关键点的一步或两步检测器。


Matrix Nets 怎样用于基于关键点的检测


CornerNet 提出来就是为了替代基于锚点的检测器,它利用一对角——左上角和右下角——来预测边界框。 对于每个角来说,CornerNet 可预测热图、偏移量和嵌入。


下图 3 为研究者提出的基于关键点的目标检测架构 KP-xNet,它包含 4 个步骤。 (a-b) 步骤使用了 xNet 主干; (c) 步骤使用了共享输出子网络,而针对每个矩阵层,他们预测了左上角和右下角的热图和偏移量,并在目标层内对它们进行中心点预测; (d) 步骤利用中心点预测匹配同一层中的角,然后将所有层的输出与 soft 非极大值抑制结合,从而得到最终输出。

图 3: KP-xNet 架构



文为机器之心编译,转载请联系本公众号获得授权
✄------------------------------------------------
加入机器之心(全职记者 / 实习生):hr@jiqizhixin.com
投稿或寻求报道:content@jiqizhixin.com
广告 & 商务合作:bd@jiqizhixin.com
登录查看更多
6

相关内容

目标检测,也叫目标提取,是一种与计算机视觉和图像处理有关的计算机技术,用于检测数字图像和视频中特定类别的语义对象(例如人,建筑物或汽车)的实例。深入研究的对象检测领域包括面部检测和行人检测。 对象检测在计算机视觉的许多领域都有应用,包括图像检索和视频监视。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
深度学习目标检测方法及其主流框架综述
专知会员服务
143+阅读 · 2020年6月26日
【文献综述】深度学习目标检测方法及其主流框架综述
专知会员服务
114+阅读 · 2020年6月26日
专知会员服务
155+阅读 · 2020年4月21日
CVPR2020 | 商汤-港中文等提出PV-RCNN:3D目标检测新网络
专知会员服务
43+阅读 · 2020年4月17日
专知会员服务
41+阅读 · 2020年2月20日
深度神经网络模型压缩与加速综述
专知会员服务
126+阅读 · 2019年10月12日
47.4mAP!最强Anchor-free目标检测网络:SAPD
极市平台
13+阅读 · 2019年12月16日
目标检测中边界框的回归策略
极市平台
17+阅读 · 2019年9月8日
角网络——目标检测(文后有paper地址及源码)
计算机视觉战队
5+阅读 · 2019年6月5日
期待已久的—YOLO V3
计算机视觉战队
20+阅读 · 2018年4月13日
YOLO升级到v3版,检测速度比R-CNN快1000倍
人工智能头条
10+阅读 · 2018年3月28日
Deformable Style Transfer
Arxiv
14+阅读 · 2020年3月24日
Clustered Object Detection in Aerial Images
Arxiv
5+阅读 · 2019年8月27日
Arxiv
5+阅读 · 2019年4月8日
Arxiv
7+阅读 · 2018年1月24日
Arxiv
4+阅读 · 2016年12月29日
VIP会员
相关VIP内容
深度学习目标检测方法及其主流框架综述
专知会员服务
143+阅读 · 2020年6月26日
【文献综述】深度学习目标检测方法及其主流框架综述
专知会员服务
114+阅读 · 2020年6月26日
专知会员服务
155+阅读 · 2020年4月21日
CVPR2020 | 商汤-港中文等提出PV-RCNN:3D目标检测新网络
专知会员服务
43+阅读 · 2020年4月17日
专知会员服务
41+阅读 · 2020年2月20日
深度神经网络模型压缩与加速综述
专知会员服务
126+阅读 · 2019年10月12日
相关资讯
47.4mAP!最强Anchor-free目标检测网络:SAPD
极市平台
13+阅读 · 2019年12月16日
目标检测中边界框的回归策略
极市平台
17+阅读 · 2019年9月8日
角网络——目标检测(文后有paper地址及源码)
计算机视觉战队
5+阅读 · 2019年6月5日
期待已久的—YOLO V3
计算机视觉战队
20+阅读 · 2018年4月13日
YOLO升级到v3版,检测速度比R-CNN快1000倍
人工智能头条
10+阅读 · 2018年3月28日
相关论文
Deformable Style Transfer
Arxiv
14+阅读 · 2020年3月24日
Clustered Object Detection in Aerial Images
Arxiv
5+阅读 · 2019年8月27日
Arxiv
5+阅读 · 2019年4月8日
Arxiv
7+阅读 · 2018年1月24日
Arxiv
4+阅读 · 2016年12月29日
Top
微信扫码咨询专知VIP会员