【速览】ICCV 2021 | GraphFPN for Object Detection: 图特征金字塔网络

2021 年 10 月 26 日 中国图象图形学学会CSIG

学会“成果速览”系列文章旨在将图像图形领域会议期刊重要成果进行传播，通过短篇文章让读者用母语快速了解相关学术动态，欢迎关注和投稿~

◆ ◆ ◆ ◆

GraphFPN for Object Detection: 图特征金字塔网络

赵刚明

^{1,2}

, 戈维峰

^{1*}

, 俞益州

^{2*}

^{1}

复旦大学计算机科学技术学院，

^{2}

香港大学计算机科学系

ICCV 2021

撰稿人：戈维峰

*通讯作者：戈维峰（wfge@fudan.edu.cn），俞益州（yizhouy@acm.org）

推荐理事：林宙辰

原文标题：GraphFPN: Graph Feature Pyramid Network for Object Detection

原文链接： https://arxiv.org/abs/2108.00580

◆ ◆ ◆ ◆

摘要

图像语义理解往往需要多尺度特征，而特征金字塔在目标检测和语义分割等等问题中已经被证明十分有效。当前性能领先的多尺度特征学习方法主要是通过固定拓扑结构的神经网络去进行跨空间和跨尺度的特征交互。本文提出了一种图特征金字塔网络，从而针对不同的图像本征结构调整神经网络的拓扑结构，并且实现跨越所有尺度的同步特征交互。对于每张输入图像，我们通过定义图像特有的超像素等级结构去代表它的本征图像结构。图特征金字塔网络从每张图像的本征结构继承得到图神经网络的多尺度拓扑结构。这些图像本征结构通过指导图神经网络中同一尺度内的相邻节点连接关系和不同尺度间的祖先-后代连接关系实现了神经网络的动态连接结构。在图神经网络中，上下文交互层和等级间交互层分别被用以进行同一尺度内和不同尺度间的信息交互。为了增强这些层的表达能力，我们借鉴卷积神经网络的做法在图神经网络中引入了两种局部的通道注意力机制。本文提出的图特征金字塔网络可以有效增强全卷积特征金字塔网络的多尺度特征。我们使用Faster R-CNN作为检测器，在MS-COCO 2017验证集和测试集上显著地超过了之前最好的基于特征金字塔的目标检测方法。

背景

基于卷积神经网络的多尺度特征融合已经被证明能够有效地提升目标检测算法的性能，使目标检测领域取得了一系列突破。但是，现有深度网络只能采取通用的结构对所有图像采取均一的操作，无法实现针对不同图像的动态结构。图灵奖得主Geoffrey Hinton在其2021年论文中提出了GLOM图像系统概念，旨在利用固定结构的神经网络去将图像分解为特定的部分-整体层次结构，以便进行层次化识别，但是并未给出具体算法实现 [1]。

每张图像都拥有多尺度本征结构，这些本征结构包含了将像素组装成物体部件、将物体部件组装成完整物体以及多个物体在图像中的空间布局等。这些多尺度本征结构针对不同图像是完全不同的，从而可以为图像理解提供重要线索。此外，根据心理学证据 [2]，人类会将图像分解为从局部到整体的等级结构，并且对不同图像建立不同的等级结构。卷积神经网络也天然的拥有多尺度特征，可以很好的和图像的多尺度本征结构对应起来。如果我们可以将图像的层次化本征结构用以指导深度神经网络的拓扑结构设计，那么就可以实现语义信息从低级到高级的聚合过程，从而实现拥有动态结构的深度神经网络。

本文实现了一种能够根据不同图像本征结构对其自身拓扑结构进行动态调整的图特征金字塔网络，并能够实现特征在不同尺度的交互。我们首先为输入图像定义一个超像素等级结构。这个超像素等级结构具有多个层次，每层都包含了一系列不相互重叠的超像素。每层的超像素定义了一种输入图像的分割形式。对于邻近两层的超像素，粗粒度的分割是通过细粒度的分割聚合而来，从而形成了不同层超像素之间的祖先-后代关系。这些多尺度不同层的超像素分割定义了邻近超像素之间的上下文关系，也定义了不同层之间的祖先-后代关系。尽管超像素对于图像是过分割的，但是同一超像素内部的像素往往属于同一个物体，从而不会破坏物体边缘，造成前景和背景信息之间的混合。我们利用层次化本征结构去设计图神经网络，并将特征金字塔网络中的特征映射到图神经网络中，经过图神经网络的处理后再反映射到特征金字塔网络。最终，同一尺度内和不同尺度间的信息通过针对每张图像定制的深度神经网络结构进行有效地交互，实现了在MS-COCO上性能的显著提升。

方法描述

图 1 图特征金字塔网络（GraphFPN）是一个建立在超像素等级上的图神经网络。图特征金字塔网络接受来自卷积主干网络的多尺度特征。这些卷积特征被一种特征映射机制映射到图神经网络的节点中，通过GraphFPN中多个上下文相关层和等级间交互层进行特征融合，最终被反映射回卷积神经网络中进行随后的物体检测。

图特征金字塔网络的整体框架图如图1所示。它包含两个部分：一个是带主干网络的特征金字塔网络，另一个是图神经网络。主干网络的多尺度特征通过超像素等级结构中的分割结果被映射进入图神经网络，形成图神经网络的节点，然后在图神经网络中按次序经历上下文-等级间-上下文三次特征融合，最后被反映射到特征金字塔网络的对应尺度，对那儿的特征进行增强。具体来说，主要技术包含以下四个方面：

（1）超像素等级结构：给定图像I，使用COB[3]获得层次化分割结果 $\lbrace\mathcal{S}^{0},\mathcal{S}^{1},\cdots,\mathcal{S}^{L}\rbrace$ 。其中 $\mathcal{S}^{0}$ 代表原始图像中单个像素， $\mathcal{S}^{L}$ 中只有一个超像素代表整张图像。而且 $\mathcal{S}^{l}$ 中的超像素是 $\mathcal{S}^{l-1}$ 中两个超像素的联合。这次，我们选取 $\lbrace\mathcal{S}^{0},\mathcal{S}^{1},\cdots,\mathcal{S}^{L}\rbrace$ 的一个子集去构成一个超像素等级结构 $\mathcal{S}=\lbrace\mathcal{S}^{l_{1}},\mathcal{S}^{l_{2}},\mathcal{S}^{l_{3}},\mathcal{S}^{l_{4}},\mathcal{S}^{l_{5}}\rbrace$ 。为了同卷积神经网络中的多尺度等级结构对齐，我们要求 $\mathcal{S}$ 中 $\mathcal{S}^{l_{i+1}}$ 的超像素数目是 $\mathcal{S}^{l_{i}}$ 中超像素数目的1/4。这样超像素等级结构可以被用来表达图像的局部到整体的层次结构和追踪超像素间的祖先-后代关系。

（2）多尺度图金字塔：和超像素等级结构 $\mathcal{S}=\lbrace\mathcal{S}^{l_{1}},\mathcal{S}^{l_{2}},\mathcal{S}^{l_{3}},\mathcal{S}^{l_{4}},\mathcal{S}^{l_{5}}\rbrace$ 对应，我们构建了一个图金字塔 $\lbrace\mathcal{G}^{1},\mathcal{G}^{2},\mathcal{G}^{3},\mathcal{G}^{4},\mathcal{G}^{5}\rbrace$ 。超像素等级结构中的每个超像素都和相应的图金字塔中一个节点对应。这里我们定义了两种边，分别叫做上下文交互边和等级间交互边。上下文交互边连接同一尺度内部的相邻节点（超像素），而等级间交互边则连接不同尺度之间具有祖先-后代关系的节点（超像素）。

（3）图神经网络层中的注意力机制: 为了增强特征的表达能力，我们采用图神经网络中常用的空间注意力机制，并新设计了两种局部通道注意力机制。一种局部单通道注意力机制将进行过平均的局部特征送入全连接层和sigmoid激活函数直接预测每个通道的权重；另一种局部通道自注意力机制，则[4]计算通道间的自注意力，实现特征增强。

（4）卷积网络和图网络之间的特征映射：卷积神经网络可以保存物体和部件的位置信息，而图神经网络可以非常便利地实现局部和整体的多尺度信息交互。我们将主干卷积神经网络的编码部分中的多尺度特征映射进入图神经网络，然后将经过信息融合特征由图神经网络映射进入特征金字塔网络的解码部分。图2展示了如何利用超像素分割实现特征在卷积神经网络和图神经网络之间的映射。

图 2 卷积神经网络的特征网格单元与超像素等级结构之间的映射关系。卷积网络中的某一层的特征网格单元被映射到对应的超像素等级中去，并被指定给当前超像素等级中与其重叠度最高的超像素。每个超像素都会收到来自同等级多个网格单元的映射。

实验结果

图 3 GraphFPN与FPN和FPT在MS-COCO数据集上的部分检测结果对比

我们使用Faster-RCNN作为检测器，并和当前最好的特征金字塔方法进行了对比。表1和表2分别给出了GraphFPN在MS-COCO 2017的验证集和测试集上进行的对比实验。实验结果表明，GraphFPN在MS-COCO 2017 test-dev set [5] 上超越了之前最好的特征金字塔方法Feature Pyramid Transformer [6] ；并且在MS-COCO 2017 val set [5] 上超越了其他流行的目标检测器如DETR[7]、Deformable DETR [8]和Sparse R-CNN [9]等。图3给出了一些和当前最新方法的对比结果。可以发现，GraphFN在检测一些小目标和前景背景混合严重的目标方面有显著优势。

表 1 同当前最新特征金字塔算法在MS-COCO 2017 test-dev set上的比较

表 2 同当前最新目标检测器在MS-COCO 2017 val set上的比较

参考文献

[1] Geoffrey Hinton. How to represent part-whole hierarchies in a neural network. arXiv preprint arXiv:2102.12627, 2021.

[2] Geoffrey Hinton. Some demonstrations of the effects of structural descriptions in mental imagery. Cognitive Science, 3(3):231–250, 1979.

[3] Kevis-Kokitsi Maninis, Jordi Pont-Tuset, Pablo Arbel´aez, and Luc Van Gool. Convolutional oriented boundaries: From image segmentation to high-level tasks. IEEE transactions on pattern analysis and machine intelligence, 40(4):819–833, 2017.

[4] Jun Fu, Jing Liu, Haijie Tian, Yong Li, Yongjun Bao, Zhiwei Fang, and Hanqing Lu. Dual attention network for scene segmentation. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 3146–3154, 2019.

[5] Tsung-Yi Lin, Michael Maire, Serge Belongie, James Hays, Pietro Perona, Deva Ramanan, Piotr Doll´ar, and C Lawrence Zitnick. Microsoft coco: Common objects in context. In European conference on computer vision, pages 740–755. Springer, 2014.

[6] Dong Zhang, Hanwang Zhang, Jinhui Tang, MengWang, Xiansheng Hua, and Qianru Sun. Feature pyramid transformer. In European Conference on Computer Vision, pages 323– 339. Springer, 2020.

[7] Nicolas Carion, Francisco Massa, Gabriel Synnaeve, Nicolas Usunier, Alexander Kirillov, and Sergey Zagoruyko. End-to-end object detection with transformers. In European Conference on Computer Vision, pages 213–229. Springer, 2020.

[8] Xizhou Zhu, Weijie Su, Lewei Lu, Bin Li, Xiaogang Wang, and Jifeng Dai. Deformable detr: Deformable transformers for end-to-end object detection. arXiv preprint arXiv: 2010.04159, 2020.

[9] P. Sun, R. Zhang, Y. Jiang, T. Kong, C. Xu, W. Zhan, M. Tomizuka, L. Li, Z. Yuan, and C. Wang. Sparse r-cnn: End-to-end object detection with learnable proposals. 2020.