学会“成果速览”系列文章旨在将图像图形领域会议期刊重要成果进行传播,通过短篇文章让读者用母语快速了解相关学术动态,欢迎关注和投稿~
◆ ◆ ◆ ◆
GraphFPN for Object Detection: 图特征金字塔网络
*通讯作者:戈维峰(wfge@fudan.edu.cn),俞益州(yizhouy@acm.org)
◆ ◆ ◆ ◆
基于卷积神经网络的多尺度特征融合已经被证明能够有效地提升目标检测算法的性能,使目标检测领域取得了一系列突破。但是,现有深度网络只能采取通用的结构对所有图像采取均一的操作,无法实现针对不同图像的动态结构。图灵奖得主Geoffrey Hinton在其2021年论文中提出了GLOM图像系统概念,旨在利用固定结构的神经网络去将图像分解为特定的部分-整体层次结构,以便进行层次化识别,但是并未给出具体算法实现 [1]。
每张图像都拥有多尺度本征结构,这些本征结构包含了将像素组装成物体部件、将物体部件组装成完整物体以及多个物体在图像中的空间布局等。这些多尺度本征结构针对不同图像是完全不同的,从而可以为图像理解提供重要线索。此外,根据心理学证据 [2],人类会将图像分解为从局部到整体的等级结构,并且对不同图像建立不同的等级结构。卷积神经网络也天然的拥有多尺度特征,可以很好的和图像的多尺度本征结构对应起来。如果我们可以将图像的层次化本征结构用以指导深度神经网络的拓扑结构设计,那么就可以实现语义信息从低级到高级的聚合过程,从而实现拥有动态结构的深度神经网络。
本文实现了一种能够根据不同图像本征结构对其自身拓扑结构进行动态调整的图特征金字塔网络,并能够实现特征在不同尺度的交互。我们首先为输入图像定义一个超像素等级结构。这个超像素等级结构具有多个层次,每层都包含了一系列不相互重叠的超像素。每层的超像素定义了一种输入图像的分割形式。对于邻近两层的超像素,粗粒度的分割是通过细粒度的分割聚合而来,从而形成了不同层超像素之间的祖先-后代关系。这些多尺度不同层的超像素分割定义了邻近超像素之间的上下文关系,也定义了不同层之间的祖先-后代关系。尽管超像素对于图像是过分割的,但是同一超像素内部的像素往往属于同一个物体,从而不会破坏物体边缘,造成前景和背景信息之间的混合。我们利用层次化本征结构去设计图神经网络,并将特征金字塔网络中的特征映射到图神经网络中,经过图神经网络的处理后再反映射到特征金字塔网络。最终,同一尺度内和不同尺度间的信息通过针对每张图像定制的深度神经网络结构进行有效地交互,实现了在MS-COCO上性能的显著提升。
图 1 图特征金字塔网络(GraphFPN)是一个建立在超像素等级上的图神经网络。图特征金字塔网络接受来自卷积主干网络的多尺度特征。这些卷积特征被一种特征映射机制映射到图神经网络的节点中,通过GraphFPN中多个上下文相关层和等级间交互层进行特征融合,最终被反映射回卷积神经网络中进行随后的物体检测。
图特征金字塔网络的整体框架图如图1所示。它包含两个部分:一个是带主干网络的特征金字塔网络,另一个是图神经网络。主干网络的多尺度特征通过超像素等级结构中的分割结果被映射进入图神经网络,形成图神经网络的节点,然后在图神经网络中按次序经历上下文-等级间-上下文三次特征融合,最后被反映射到特征金字塔网络的对应尺度,对那儿的特征进行增强。具体来说,主要技术包含以下四个方面:
(1)超像素等级结构:给定图像I,使用COB[3]获得层次化分割结果
(2)多尺度图金字塔:和超像素等级结构
(3)图神经网络层中的注意力机制: 为了增强特征的表达能力,我们采用图神经网络中常用的空间注意力机制,并新设计了两种局部通道注意力机制。一种局部单通道注意力机制将进行过平均的局部特征送入全连接层和sigmoid激活函数直接预测每个通道的权重;另一种局部通道自注意力机制,则[4]计算通道间的自注意力,实现特征增强。
(4)卷积网络和图网络之间的特征映射:卷积神经网络可以保存物体和部件的位置信息,而图神经网络可以非常便利地实现局部和整体的多尺度信息交互。我们将主干卷积神经网络的编码部分中的多尺度特征映射进入图神经网络,然后将经过信息融合特征由图神经网络映射进入特征金字塔网络的解码部分。图2展示了如何利用超像素分割实现特征在卷积神经网络和图神经网络之间的映射。
图 2 卷积神经网络的特征网格单元与超像素等级结构之间的映射关系。卷积网络中的某一层的特征网格单元被映射到对应的超像素等级中去,并被指定给当前超像素等级中与其重叠度最高的超像素。每个超像素都会收到来自同等级多个网格单元的映射。
图 3 GraphFPN与FPN和FPT在MS-COCO数据集上的部分检测结果对比
我们使用Faster-RCNN作为检测器,并和当前最好的特征金字塔方法进行了对比。表1和表2分别给出了GraphFPN在MS-COCO 2017的验证集和测试集上进行的对比实验。实验结果表明,GraphFPN在MS-COCO 2017 test-dev set [5] 上超越了之前最好的特征金字塔方法Feature Pyramid Transformer [6] ;并且在MS-COCO 2017 val set [5] 上超越了其他流行的目标检测器如DETR[7]、Deformable DETR [8]和Sparse R-CNN [9]等。图3给出了一些和当前最新方法的对比结果。可以发现,GraphFN在检测一些小目标和前景背景混合严重的目标方面有显著优势。
表 1 同当前最新特征金字塔算法在MS-COCO 2017 test-dev set上的比较
表 2 同当前最新目标检测器在MS-COCO 2017 val set上的比较
[1] Geoffrey Hinton. How to represent part-whole hierarchies in a neural network. arXiv preprint arXiv:2102.12627, 2021.
[2] Geoffrey Hinton. Some demonstrations of the effects of structural descriptions in mental imagery. Cognitive Science, 3(3):231–250, 1979.
[3] Kevis-Kokitsi Maninis, Jordi Pont-Tuset, Pablo Arbel´aez, and Luc Van Gool. Convolutional oriented boundaries: From image segmentation to high-level tasks. IEEE transactions on pattern analysis and machine intelligence, 40(4):819–833, 2017.
[4] Jun Fu, Jing Liu, Haijie Tian, Yong Li, Yongjun Bao, Zhiwei Fang, and Hanqing Lu. Dual attention network for scene segmentation. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 3146–3154, 2019.
[5] Tsung-Yi Lin, Michael Maire, Serge Belongie, James Hays, Pietro Perona, Deva Ramanan, Piotr Doll´ar, and C Lawrence Zitnick. Microsoft coco: Common objects in context. In European conference on computer vision, pages 740–755. Springer, 2014.