CVPR 2019 | NAS-FPN：基于自动架构搜索的特征金字塔网络

2019 年 7 月 5 日 PaperWeekly

作者丨孙明珊

学校丨哈尔滨工业大学（深圳）硕士生

研究方向丨目标检测

研究动机

当前目标检测网络中采用特征金字塔网络（FPN）结构解决多尺度的问题，但是这些 FPN 都是人工事先设计，并不一定是最优的结构。为了更灵活地获得更优的 FPN 结构，该文章首创性地提出了采用神经架构搜索（NAS）的方式定制化地构建 FPN，该结构又称 NAS-FPN。

设计 FPN 结构的最大困难在于它巨大的设计空间，在不同尺度上融合特征的组合数会随着网络层数的增长而增大。由此该文先设计了一个能覆盖所有跨尺度连接产生多尺度特征的搜索空间，然后采用强化学习训练一个 RNN 控制器来选出最优的 FPN 结构。该方法采用 RetinaNet 的框架，其结构如下图所示：

研究方法

搜索空间

FPN 的众多跨连接构成了很大的搜索空间。在搜索空间中，一个 FPN 由很多 merging cells 组成，然后合并一些来自不同层融合的特征表示。一个 merging cell 将两个来自不同特征层的特征连接融合产生一个特征输出，这样的单元结构就构成了 FPN 的元结构，同时所有的可能的特征层组合由 merging cells 组建化的表示，这也就构成了我们的搜索空间（模块化）。一个 merging cell 的结构如下：

构建 merging cell 是由控制器 RNN 来做决定，它不仅要决定选取哪两个特征层，还要决定采用那种特征融合方式？

每个 merging cell 有 4 个预测步骤：首先选一个特征层，然后再选一个特征层，随后决定输出特征的维度，最后决定采用何种特征融合方式将两个特征层合并到特定尺度。这里的特征融合方式分为两种 sum 和 global pooling。

NAS-FPN 的优势之一是搜索空间的设计，覆盖所有可能的跨尺度连接，用来生成多尺度特征表示。在搜索过程中，研究者的目标是发现具有相同输入和输出特征级别并且可以被重复应用的微粒架构。模块化搜索空间使得搜索金字塔架构变得易于管理。

模块化金字塔架构的另一个好处是可以随时检测目标，虽然这种方法已出现，但手动设计这种架构依旧相当困难。固定分类和回归的网络进行深度监督训练。搜索的终止并不是非要全部搜索完，随时都可以退出。因为分辨率不变，所以 FPN 可以随意扩展。

模型搜索

NAS 利用强化学习训练控制器在给定的搜索空间中选择最优的模型架构。控制器利用子模型在搜索空间中的准确度作为奖励信号来更新参数。因此，通过反复试验，控制器逐渐学会了如何生成更好的架构。由于不知道 FPN 的跨连接情况，NAS-FPN 采用 RNN 作为控制器，使用该控制器来产生一串信息，用于构建不同的连接。其宏观结构如下图所示：