超越Mask-RCNN：谷歌大脑提出NAS-FPN，一种会自动搜索的特征金字塔网络

会员服务 ·

超越Mask-RCNN：谷歌大脑提出NAS-FPN，一种会自动搜索的特征金字塔网络

2019 年 5 月 17 日 CVer

点击上方“CVer”，选择加"星标"或“置顶”

重磅干货，第一时间送达

方栗子发自凹非寺
本文转载自：量子位（QbitAI）

这是一只AI生出的小AI。

谷歌大脑的Quoc Le团队，用神经网络架构搜索 (NAS) ，发现了一个目标检测模型。长这样：

△ 看不清请把手机横过来

它的准确率和速度都超过了大前辈Mask-RCNN；也超过了另外两只行业精英：FPN和SSD。

模型叫做NAS-FPN。大佬Quoc Le说，它的长相完全在想象之外，十分前卫：

△ 喜讯发布一日，已收获600颗心

AI的脑洞果然和人类不一样。对比一下，目标检测界的传统方法FPN (特征金字塔网络) 长这样：

谷歌大脑说，虽然网络架构搜索 (NAS) 并不算新颖，但他们用的搜索空间与众不同。

怎么搜出来？

在NAS-FPN出现之前，地球上最强大的目标检测模型，架构都是人类手动设计的。

△ 这是Mask-RCNN的成果

NAS是一种自动调参的方法，调的不是训练超参数，是网络架构超参数：比如网络多少层、每层都是什么算子、卷积层里的过滤器大小等等。

它可以在许多许多不同的架构里，快速找到性能最好的那一个。

所以，要把目标检测的常用架构FPN (特征金字塔网络) 和NAS结合起来，发现那只最厉害的AI。

但问题是搜索空间太大，特征横跨许多不同的尺度。

于是，团队基于RetinaNet框架，设计了一个新的搜索空间：

这里，一个FPN是由许多的“合并单元 (Merging Cells) ”组成的。

是要把输入的不同尺度/分辨率的特征层，合并到RetinaNet的表征里去。

具体怎样合并？这是由一个RNN控制器来决定的，经过四个步骤：

一是，从输入里任选一个特征层；

二是，从输入里再选一个特征层；

三是，选择输出的特征分辨率；

四是，选择一种二进制运算，把两个特征层 (用上一步选定的分辨率) 合并起来。

第四步有两种运算可选，一种是加和 (sum) ，一种是全局池化 (Global Pooling) 。两个都是简单、高效的运算，不会附加任何带训练的参数。

一个Cell就这样合并出来了，但这只是中间结果。把它加到刚才的输入列表里，和其他特征层排在一起。

然后，就可以重新选两个特征层，重复上面的步骤一、二、四，保持分辨率不变。

(团队说，如果要避免选到相同分辨率的两个特征层，就不要用步长8。2和4是比较合适的步长。)

就这样，不停地生成新的Cell。

停止搜索的时候，最后生成的5个Cell，会组成“被选中的FPN”出道。

那么问题来了，搜索什么时候能停？

不是非要全部搜索完，随时都可以退出。反正分辨率是不变的，FPN是可以随意扩展的。

团队设定了Early Exit (提前退出) 机制，用来权衡速度和准确率。

最终发布NAS-FPN的，是AI跑了8,000步之后，选取最末5个Cell生成的网络。回顾一下：

△ 看不清请把手机横过来

从原始FPN (下图a) 开始，它走过的路大概是这样的：

跑得越久，生成的网络就越蜿蜒。

模型怎么样？

NAS-FPN可以依托于各种骨架：MobileNet，ResNet，AmoebaNet……

团队选择的是AmoebaNet骨架。

那么，用COCO test-dev数据集，和那些强大的前辈比一比高清大图检测效果。

比赛结果发布：

△ 看不清请把手机横过来

NAS-FPN拿到了48.3的AP分，超过了Mask-RCNN，并且用时更短 (右边第二列是时间) 。

另外一场比赛，是移动检测 (320x320) ，NAS-FPN的轻量版本，跑在MobileNet2骨架上：

超过了厉害的前辈SSD轻量版，虽然，还是没有赶上YOLOv3。

△ YOLOv3过往成果展

不过，打败Mask-RCNN已经是值得庆祝的成就了。

One More Thing

NAS既然如此高能，应该已经搜索过很多东西了吧？

谷歌大脑的另一位成员David Ha列出了7种：

1) 基于CNN的图像分类器，2) RNN，3) 激活函数，4) SGD优化器，5) 数据扩增，6) Transformer，7) 目标检测。

并发射了直击灵魂的提问：下一个被搜的会是什么？

他的同事摘得了最佳答案：NAS啊。

△ NAS

论文传送门：
https://arxiv.org/pdf/1904.07392.pdf

作者系网易新闻·网易号“各有态度”签约作者

CVer-目标检测交流群

扫码添加CVer助手，可申请加入CVer-目标检测交流群。一定要备注：目标检测+地点+学校/公司+昵称（如目标检测+上海+上交+卡卡），不根据格式申请，一律不通过。

▲长按加群

这么硬的论文分享，麻烦给我一个在在看

▲长按关注我们

麻烦给我一个在看！

登录查看更多

相关内容

NAS-FPN

关注 0

【CVPR2020】通过获取高质量的关键点对来提升目标检测性能

专知会员服务

44+阅读 · 2020年6月30日

新杀器来了！Facebook AI提出DETR：用Transformers来进行端到端的目标检测

专知会员服务

51+阅读 · 2020年5月28日

紧凑的神经网络模型设计研究综述

专知会员服务

74+阅读 · 2020年5月21日

【MIT韩松博士-ICLR2020】端上自动机器学习-一劳永逸网络的NAS: Once-for-All Network

专知会员服务

58+阅读 · 2020年5月4日

【CMU-Google-斯坦福】可控行为的弱监督强化学习，Weakly-Supervised RL

专知会员服务

22+阅读 · 2020年4月8日

【上海交大】可解释CNN的对象分类，Interpretable CNNs for Object Classification

专知会员服务

54+阅读 · 2020年3月14日

【微软&CMU】后向特征校正，深度学习如何深度学习？Backward Feature Correction: How Deep Learning Performs Deep Learning

专知会员服务

13+阅读 · 2020年1月18日

【Nature机器智能子刊新论文】学习作为概念系统的无监督对齐

专知会员服务

11+阅读 · 2020年1月18日

【论文|Google】基于元学习的排序架构，Ranking architectures using meta-learning

专知会员服务

18+阅读 · 2019年11月30日

【Google AI新论文EfficientDet】规模化高效化的物体检测，EfficientDet: Scalable and Efficient Object Detection(附pdf)

专知会员服务

27+阅读 · 2019年11月24日

【NeurIPS 2019】7篇自动化神经网络搜索(NAS)论文简读

专知

31+阅读 · 2019年9月12日

角网络——目标检测（文后有paper地址及源码）

计算机视觉战队

5+阅读 · 2019年6月5日

谷歌大脑提出NAS-FPN：这是一种学会自动架构搜索的特征金字塔网络

机器之心

4+阅读 · 2019年4月22日

超越Mask-RCNN：谷歌大脑的AI，自己写了个目标检测AI

量子位

3+阅读 · 2019年4月19日

谷歌大脑重磅研究：神经结构搜索发现全新特征金字塔架构，超越Mask R-CNN等

新智元

12+阅读 · 2019年4月19日

【学界】李飞飞等人提出Auto-DeepLab：自动搜索图像语义分割架构

GAN生成式对抗网络

9+阅读 · 2019年1月14日

李飞飞等人提出Auto-DeepLab：自动搜索图像语义分割架构

全球人工智能

5+阅读 · 2019年1月14日

原来CNN是这样提取图像特征的。。。

计算机视觉life

8+阅读 · 2018年11月23日

特征金字塔网络FPN的直觉与架构

论智

11+阅读 · 2018年8月6日

Faster R-CNN

数据挖掘入门与实战

4+阅读 · 2018年4月20日

Mesh R-CNN

Arxiv

4+阅读 · 2019年6月6日

NAS-FPN: Learning Scalable Feature Pyramid Architecture for Object Detection

Arxiv

7+阅读 · 2019年4月16日

Panoptic Feature Pyramid Networks

Arxiv

3+阅读 · 2019年1月8日

SlowFast Networks for Video Recognition

Arxiv

19+阅读 · 2018年12月10日

ShuffleNet V2: Practical Guidelines for Efficient CNN Architecture Design

Arxiv

4+阅读 · 2018年7月30日

Receptive Field Block Net for Accurate and Fast Object Detection

Arxiv

3+阅读 · 2018年7月26日

Pooling Pyramid Network for Object Detection

Arxiv

6+阅读 · 2018年7月9日

FSSD: Feature Fusion Single Shot Multibox Detector

Arxiv

8+阅读 · 2018年5月17日

DetNet: A Backbone network for Object Detection

Arxiv

5+阅读 · 2018年4月17日

Mask R-CNN

Arxiv

7+阅读 · 2018年1月24日

VIP会员