Auto Detection—NAS与目标检测的邂逅

2019 年 7 月 16 日 CVer

点击上方“CVer”，选择加"星标"或“置顶”

重磅干货，第一时间送达

本文转载自：AutoML前沿

当众多CVer绞尽脑汁设计和改进深度神经网络结构时，Google Brain早已踏上了AutoML这趟时代的顺风车，于今年4月提出了算法NAS-FPN: Learning Scalable Feature Pyramid Architecture for Object Detection, 在COCO数据集上斩获test-dev AP 48.3的战绩，可谓是神经网络架构搜索在目标检测方面的开山之作！

此后Auto Detection一发而不可收，迅速成为众多目标检测研究人员攻城略地的新大陆。本文将分别从纵与横两个视角对NAS-FPN及其延展进行讲述。

1. NAS-FPN

论文：https://arxiv.org/abs/1904.07392;

Git非官方开源代码：https://github.com/DetectionTeamUCAS/NAS_FPN_Tensorflow；

NAS-FPN结构并不复杂，基本沿用了RetinaNet的网络架构：1. Backbone网络生成feature maps；2.用NAS-FPN取代原有人工设计的FPN结构，跨尺度将低层high resolution的特征图与高层high semantic的特征图进行融合成更强的不同尺度的新特征；3. 利用次级子网络分别对class和bounding box进行分类和回归。

事实上，NAS-FPN只是NAS在目标检测中的牛刀小试，因为它只是对整个网络的特征金字塔部分进行了搜索，用自动搜索得到的特征构成金字塔去替代原有的FPN。

我们具体来看NAS-FPN是如何定义搜索空间并实现搜索的。根据原文，其搜索空间定义可简述为包含Merging cell的特征金字塔，其中的merging cell用以合成新的feature map作为后续子网络的输入层。

该图直观地展示了Merging cell的机制：从现有的feature map集中不放回地任意选取两个feature map；->选择输出的分辨率；->选择此次的Binary Op，将选择的两个feature map融合并按照上一步选择的分辨率生成新的feature map；->将新生成的feature map添加到feature map集从而可基于此生成的feature map进一步搜索。

值得注意的是，Binary Op中包括sum 和global pooling两个Op. 而此处定义的global pooling 沿用了语义分割论文Pyramid Attention Network for Semantic Segmentation(Megvii Inc, PKU) 中提出的Global Attention Upsample module即全局注意力上采样模块。如下图：

通过该注意力机制，实现了high-level feature在特征融合时对low-level feature的引导，加强了生成的feature map中高层feature的信息。

最后，文中给出了通过设置merge 次数为7时搜索出的网络架构:

该架构在不同的backbone上进行实验，均优于原RetinaNet架构下表现，NAS-FPN AmoebaNet (input size为1280*1280)在coco数据集上表现为test-dev AP 48.3，超越了当时state-of-art的算法。

2. 百步飞剑—持续推陈出新的FPN

自从FPN提出以来，对FPN的改进就一直没有停过，改进的思路也各有花样：

a. PaNet: Path Aggregation Network (From Sense Time&Tecent)

论文：https://arxiv.org/abs/1803.01534

Path Aggregation Network的核心思想是在原有特征金字塔的基础上添加了一条bottom-up path，再一次利用low-level特征增强resolution信息。

b. M2Det: Stacked U-shape Model (From Ali Damo Academy&PKU)

论文：https://arxiv.org/abs/1811.04533

M2Det借用了语义分割处U-shape net的思想，通过在TUM(Thin U-shape Module)中模拟原始fpn的横向连接，形成类特征金字塔结构，并对TUM进行堆叠，得到不同层级的类金字塔结构，然后使用SFAM模块对其进行集成。值得注意的是，在SFAM模块中同样使用global pooling再激活引入了attention机制。如下图：