学界 | 金字塔注意力网络：一种利用底层像素与高级特征的语义分割网络

2018 年 6 月 15 日 机器之心

选自arXiv

机器之心编译

参与：机器之心编辑部

目前很多语义分割方法在细节方面做得都不好，近日北京理工、旷视科技、北京大学机器感知重点实验室的研究者提出金字塔形注意力网络，它结合注意力机制和空间金字塔去提取精准的密集特征而用于像素级标注任务，这种方法不再使用复杂化的扩张卷积和人工设计的解码网络。

在卷积神经网络的近期发展中，根据其丰富的层级特征和端到端的可训练框架，像素级语义分割方面有了可观的进步。但是在编程高维度代表的过程中，原本像素级的环境背景中的空间分辨率会降低。如图 1 显示，FCN 基线无法在细节部分做出精准预测。第二排图片中，在牛旁边的羊被识别到错误分类之中；以及第一排图片中自行车的把手没有被识别成功。对此我们需要考虑两个具有挑战性的问题。

第一个问题在于不同比例的物体很难被分类到同一类别之中。要解决这个问题，PSPNet[33] 或者 DeepLab[2] 系统需要在不同的网格尺度或者扩张 ASPP 率（Atrous Spatial Pyramid Pooling）中执行空间金字塔池化。在 ASPP 模块中，扩张卷积是一种可能会产生网格误差的稀疏计算。此外，PSPNet 中的金字塔池化（pyramid pooling）模块也可能会降低像素级的定位信息。根据 SENet[8] 和 Parsenet[18] 提供的灵感，我们尝试为从 CNN 提取出的高级特征抽取精准的像素级注意力。图 1 中显示的金字塔池化模块可以增加感受野并更高效地分类细节。

图 1：VOC 数据集的视觉化结果 [5]。如图所示，FCN 基础模型难以在细节部分做出准确预测。第一排图片中自行车的把手没有被识别成功，第二排图片中在牛旁边的羊被识别到了错误类别。本论文提出的特征金字塔注意力（FPA）模块和全局注意力上采样（GAU）模块设计用于提升感受野和高效地恢复像素定位细节。

另一个问题在于高级特征更适用于做类别分类，但不适用于重建原始分辨率的二元预测。一些 U 型网络如 SegNet、Refinene、Tiramisu 和 Large Kernel Matters，用复杂的解码模块去使用底层信息帮助高级特征恢复图片细节，然而这样的过程需要花费大量时间。要解决这个问题，我们需要一个有效的解码模块，即全局注意力上采样（GAU），它可以抽取高级特征的全局上下文信息，并在不增加过多计算成本的同时引导加权底层特征的信息。

总结来说，我们的论文有三大贡献。首先，我们提出了特征金字塔注意力模块可在 FCN 基础像素预测模型嵌入不同尺度的上下文特征。之后，我们开发了一个高效解码模块 GAU 以帮助语义分割。最后，结合特征金字塔注意力和全局注意力上采样，我们的金字塔注意力网络架构可在 VOC 2012 和 cityscapes 基准上达到当前最优水平。

方法

在这一章中，作者首先会介绍特征金字塔注意力模块和全局注意力上采样模块，之后会描述完整的编码器-解码器网络架构，以及为语义分割任务所设计的金字塔注意力网络。

图 2：金字塔注意力网络总览。我们用 ResNet-101 来提取密集型特征，然后用 FPA 和 GAU 来提取精准的像素级预测和定位细节。图中蓝色线和红色线依次代表下采样和上采样的运算。

特征金字塔注意力

启发自注意力机制，我们考虑如何为从 CNN 提取出的高级特征提供精准的像素级注意力。在目前的语义分割架构中，金字塔结构可以提取出不同尺寸的特征信息并增加像素级的感受野，但是这样的结构缺少全局上下文先验注意力去选择在 SENet 和 EncNet 中的对应通道的特征。另一方面，使用对应通道注意力向量还不足以有效提取多个尺度的特征且缺少像素级的信息。

图 3：特征金字塔注意力模块结构。a）空间金字塔池化结构。b）特征金字塔注意力模块。4×4, 8×8, 16×16, 32×32 表示的是特征图的分辨率。虚线框表示全局池化分支，蓝色线和红色线依次代表下采样和上采样的运算。

全局注意力上采样

我们认为解码模块最主要的特性是去修复类别像素的定位。更多的，多类信息的高级特征可以用于加权底层信息而选择精准分辨率细节。

图 4：全局注意力的上采样模块结构。

实验结果

表 1：特征金字塔注意力的性能细节以及不同设置。『SE』表示用 SENet 注意力模块去替换金字塔结构。对于特征金字塔注意力模块中的金字塔结构，『C333』表示所有卷积核尺寸是 3 × 3。如图 3 所示，『C357』表示所有卷积核尺寸依次是 3 × 3、5 × 5 和 7 × 7。『MAX』和『AVE』表示最大池化和平均池化运算。『GP』表示全局池化分支。

表 6： PASCAL VOC 2012 测试集中每一个类别的推断结果。PAN 胜过的目前最优水平并在没有 COCO 数据集预训练的情况下达到 84.0%。

论文：Pyramid Attention Network for Semantic Segmentation

论文地址：https://arxiv.org/pdf/1805.10180.pdf

金字塔注意力网络（PAN）致力于探索全局上下文信息对语义分割的作用。不同于大部分的工作，我们结合注意力机制和空间金字塔去提取精准的密集特征而用于像素级标注任务，这种方法不再使用复杂化的扩张卷积和人工设计的解码网络。具体地，我们引入特征金字塔注意力模块在高级输出特征上执行空间金字塔注意力，并结合全局池化学习一个更完善的特征表示。此外，全局注意力上采样模块在每个解码器层提供全局上下文信息，并指导底层特征选择类别的定位细节。这个方法在 PASCAL VOC 2012 数据集上达到当前最优水平的 IoU 精准度（84.0%），在 Cityscapes 基准也获得当前最优水平的性能，它们都没有在 COCO 数据集上进行预训练。