学界 | Facebook、谷歌分别改进何恺明 FPN 工作

2019 年 4 月 19 日 AI科技评论

AI 科技评论按：在计算机视觉领域中，多维度目标检测一直被用作输入以生成反映不同维度信息的特征组合，这种办法能够有效表达图片上的各种维度特征，然而却对硬件计算能力及内存大小有较高要求，因此只能在有限的领域内部使用。Facebook 于 2016 年在论文《Feature Pyramid Networks for Object Detection》中提出的 FPN，通过利用常规 CNN 模型内部从底至上各个层对同一 scale 图片不同维度的特征表达结构，提出了一种可有效在单一图片视图下生成对其的多维度特征表达的方法。近期，Facebook 和谷歌接连发布了基于 FPN 的改进工作，我们将之整理如下。

2018 年初，Facebook 还在论文《Panoptic Segmentation》中对全景分割 Panoptic Segmentation 任务进行了研究，并提出了自己的解决方案 Panoptic FPN。由于全景分割任务近期开始变得热门，Facebook 考虑把 FPN 模型用于一次性解决全景分割任务，于是在今年 1 月发布了《Panoptic Feature Pyramid Networks》，以下为论文摘要：

我们近期引介的全景分割任务，成功引起了社区对于统一实例分割与语义分割任务的兴趣。然而，当前用于处理该联合任务的最先进方法，依然使用的是独立且不相似的网络，因而未具备相应的共享计算。在这项工作中，我们的目标是在架构层面统一这些方法，为两个任务设计一个统一的网络。我们将作为语义分割方法分支的共享特征金字塔网络（FPN）与 Mask R-CNN（一种流行的实例分割方法）进行结合。令人惊讶的是，这个简单的基线不仅对示例分割任务有效，而且还产生了一种轻量级、性能出众的语义分割方法。在这项工作中，我们对带有 FPN 的 Mask R-CNN 进行了详细研究，我们将之称为 Panoptic FPN，并成功展示对于两个任务而言，它是一个稳健且准确的基线。鉴于其有效性和概念性简单，我们希望该方法能帮到未来的全景分割研究。

论文链接：

https://arxiv.org/abs/1901.02446

今年 4 月 16 日，谷歌接着发布一篇名为《NAS-FPN: Learning Scalable Feature Pyramid Architecture for Object Detection》论文，提出一项可以更好用于目标检测的 NAS-FPN。该论文已被 CVPR 2019 接收，以下为论文摘要：

如今用于物体检测的最先进卷积体系结构都是人为设计的。因此，我们的目标是为物体检测构建一个更好的特征金字塔网络架构。我们采用神经架构搜索（Neural Architecture Search），在一个涵盖所有跨规模连接的新型可扩展搜索空间中发现了新的特征金字塔架构，这个被命名为NAS-FPN的架构由自上而下和自下而上的连接组合而成，可跨规模进行融合。与最先进的物体检测模型相比，在 RetinaNet 框架里集合了各种骨干模型的 NAS-FPN 能达到更好的准确性和延迟权衡。与最先进的 SSDLite + MobileNetV2 模型相比，NAS-FPN 成功将移动检测的精度提高了 2 AP，并以 48.3 AP 成功超越 Mask R-CNN 的检测精度，而且使用的计算时间更短。

论文链接：

https://arxiv.org/abs/1904.07392