Auto Detection—NAS与目标检测的邂逅

2019 年 7 月 16 日 CVer

点击上方“CVer”,选择加"星标"或“置顶”

重磅干货,第一时间送达

本文转载自:AutoML前沿


当众多CVer绞尽脑汁设计和改进深度神经网络结构时,Google Brain早已踏上了AutoML这趟时代的顺风车,于今年4月提出了算法NAS-FPN: Learning Scalable Feature Pyramid Architecture for Object Detection, 在COCO数据集上斩获test-dev AP 48.3的战绩,可谓是神经网络架构搜索在目标检测方面的开山之作!


此后Auto Detection一发而不可收,迅速成为众多目标检测研究人员攻城略地的新大陆。本文将分别从纵与横两个视角对NAS-FPN及其延展进行讲述。


1.    NAS-FPN


论文:https://arxiv.org/abs/1904.07392;

Git非官方开源代码:https://github.com/DetectionTeamUCAS/NAS_FPN_Tensorflow;


NAS-FPN结构并不复杂,基本沿用了RetinaNet的网络架构:1. Backbone网络生成feature maps;2.用NAS-FPN取代原有人工设计的FPN结构,跨尺度将低层high resolution的特征图与高层high semantic的特征图进行融合成更强的不同尺度的新特征;3. 利用次级子网络分别对class和bounding box进行分类和回归。

事实上,NAS-FPN只是NAS在目标检测中的牛刀小试,因为它只是对整个网络的特征金字塔部分进行了搜索,用自动搜索得到的特征构成金字塔去替代原有的FPN。

我们具体来看NAS-FPN是如何定义搜索空间并实现搜索的。根据原文,其搜索空间定义可简述为包含Merging cell的特征金字塔,其中的merging cell用以合成新的feature map作为后续子网络的输入层。

该图直观地展示了Merging cell的机制:从现有的feature map集中不放回地任意选取两个feature map;->选择输出的分辨率;->选择此次的Binary Op,将选择的两个feature map融合并按照上一步选择的分辨率生成新的feature map;->将新生成的feature map添加到feature map集从而可基于此生成的feature map进一步搜索。

值得注意的是,Binary Op中包括sum 和global pooling两个Op. 而此处定义的global pooling 沿用了语义分割论文Pyramid Attention Network for Semantic Segmentation(Megvii  Inc, PKU) 中提出的Global Attention Upsample module即全局注意力上采样模块。如下图:

通过该注意力机制,实现了high-level feature在特征融合时对low-level feature的引导,加强了生成的feature map中高层feature的信息。

最后,文中给出了通过设置merge 次数为7时搜索出的网络架构:

该架构在不同的backbone上进行实验,均优于原RetinaNet架构下表现,NAS-FPN AmoebaNet (input size为1280*1280)在coco数据集上表现为test-dev AP 48.3,超越了当时state-of-art的算法。


2.    百步飞剑—持续推陈出新的FPN


自从FPN提出以来,对FPN的改进就一直没有停过,改进的思路也各有花样:


a. PaNet: Path Aggregation Network (From Sense Time&Tecent)

论文:https://arxiv.org/abs/1803.01534

Path Aggregation Network的核心思想是在原有特征金字塔的基础上添加了一条bottom-up path,再一次利用low-level特征增强resolution信息。


b. M2Det: Stacked U-shape Model  (From Ali Damo Academy&PKU)

论文:https://arxiv.org/abs/1811.04533

M2Det借用了语义分割处U-shape net的思想,通过在TUM(Thin U-shape Module)中模拟原始fpn的横向连接,形成类特征金字塔结构,并对TUM进行堆叠,得到不同层级的类金字塔结构,然后使用SFAM模块对其进行集成。值得注意的是,在SFAM模块中同样使用global pooling再激活引入了attention机制。如下图:

此外,还有ZigZagNet通过dense connection对FPN进行改进等。总起来看,对FPN的改进多从语义分割典型网络结构借鉴思路;另外,注意力机制逐渐成为搭建特征金字塔的标配。


3.    横贯八方—NAS多方位大展身手


在NAS-FPN初试锋芒之后,其他团队纷纷一拥而上,针对目标检测中网络结构的不同部分进行了搜索实验:


a.   NAS-FCOS

论文:https://arxiv.org/abs/1906.04423

如图所示,NAS-FCOS基于FCOS,尝试对FPN和prediction head同时进行搜索,并通过定制化的强化学习来控制搜索过程,并得到了以下结构:


b. DetNAS (From Megvii. Inc, Chinese Academy of Science)

论文:https://arxiv.org/abs/1903.10979


不同于NAS-FCOS与NAS-FPN,DetNAS向着backbone的搜索发起了冲击。通常目标检测使用的backbone是为图像分类设计的,某种程度上是次优的选择。该论文首次使用NAS对目标检测的backbone展开搜索;基于one-shot supernet,其搜索步骤如下:

实验证明,搜索出的DetNAS比常用的ShuffleNetV2-40及ResNet-101精度表现提高5%以上。


4.     结语


一方面,FPN的人工改进如火如荼,而不断推陈出新的特征融合模式也为NAS拓广搜索空间提供了灵感;另一方面,NAS在模型不同模块的实验成功也促使人们朝着更大的搜索域迈进。笔者不禁好奇,接下来的下半年,NAS与目标检测又将碰撞出怎样夺目的火花,让我们拭目以待!


CVer-目标检测交流群


扫码添加CVer助手,可申请加入CVer-目标检测交流群。一定要备注:研究方向+地点+学校/公司+昵称(如目标检测+上海+上交+卡卡)

▲长按加群


▲长按关注我们

麻烦给我一个在看

登录查看更多
0

相关内容

3D目标检测进展综述
专知会员服务
191+阅读 · 2020年4月24日
专知会员服务
161+阅读 · 2020年4月21日
【ICLR-2020】网络反卷积,NETWORK DECONVOLUTION
专知会员服务
38+阅读 · 2020年2月21日
CVPR2019 | FSAF:来自CMU的Single-Shot目标检测算法
极市平台
41+阅读 · 2019年3月8日
理解 YOLO 目标检测
AI研习社
21+阅读 · 2018年11月5日
Single-Shot Object Detection with Enriched Semantics
统计学习与视觉计算组
14+阅读 · 2018年8月29日
Relation Networks for Object Detection 论文笔记
统计学习与视觉计算组
16+阅读 · 2018年4月18日
深度学习时代的目标检测算法
炼数成金订阅号
39+阅读 · 2018年3月19日
综述:深度学习时代的目标检测算法
极市平台
27+阅读 · 2018年3月17日
EfficientDet: Scalable and Efficient Object Detection
Arxiv
6+阅读 · 2019年11月20日
Scale-Aware Trident Networks for Object Detection
Arxiv
4+阅读 · 2019年1月7日
Arxiv
5+阅读 · 2018年4月17日
Arxiv
7+阅读 · 2018年3月19日
Arxiv
5+阅读 · 2016年12月29日
VIP会员
相关资讯
CVPR2019 | FSAF:来自CMU的Single-Shot目标检测算法
极市平台
41+阅读 · 2019年3月8日
理解 YOLO 目标检测
AI研习社
21+阅读 · 2018年11月5日
Single-Shot Object Detection with Enriched Semantics
统计学习与视觉计算组
14+阅读 · 2018年8月29日
Relation Networks for Object Detection 论文笔记
统计学习与视觉计算组
16+阅读 · 2018年4月18日
深度学习时代的目标检测算法
炼数成金订阅号
39+阅读 · 2018年3月19日
综述:深度学习时代的目标检测算法
极市平台
27+阅读 · 2018年3月17日
相关论文
Top
微信扫码咨询专知VIP会员