《pyramid Attention Network for Semantic Segmentation》

2018 年 8 月 30 日 统计学习与视觉计算组

CVPR2018论文

论文链接:https://arxiv.org/pdf/1805.10180.pdf

一、背景

1、语义分割难点

  (1)物体尺度不一,存在多尺度目标,小物体分割效果不好;

  (2)类别较多,存在类内相异类间相似等问题,导致类别分类错误、类内不连续。

2、网络结构设计

      (1)Encoder部分

    扩大感受野,获得更多全局信息,如空洞卷积,但可能会导致产生网格伪像,影响小物体的预测;利用空间金字塔结构,融合多尺度的特征信息,但可能会丢失像素级别的定位信息;

      (2)Decoder部分

    下采样过程中丢失空间信息,所以上采样过程中利用多阶段的low-level特征辅助恢复空间位置信息。

    3、作者方法

    作者受SE-NET的启发,将注意力机制和空间金字塔相结合,来提取准确而密集的特征并获取像素标签。具体来说,作者提出了两个模块,特征金字塔注意力模块(FPA )和全局注意力上采样模块(GAU),FPA能够提供像素级注意力信息并通过金字塔结构来扩大感受野的范围,GAU 模块利用高层特征来指导低层特征恢复图像像素的定位。结合这两个模块,提出PAN网络。

    图1:VOC 数据集的可视化结果

    二、网络结构

    1、金字塔注意力网络 PAN

    图2:金字塔注意力网络结构


    2、特征金字塔注意力模块 FPA

    FPA模块包括两个分支,上面分支通过global pooling获取全局上下文信息;下面分支基于金字塔结构,用不同大小的卷积核(3×3, 5×5, 7×7),提取不同尺度的上下文信息,然后逐步融合相邻尺寸的特征,接着与1×1卷积后feature map进行逐像素点成,获取像素级注意力特征;最后将两个分支特征进行逐像素相加。所以FPA 模块可以融合不同尺度的上下文信息,同时还能为高层次的特征图提供更好的像素级注意力。


    图3:特征金字塔注意力模块结构


    3、全局注意力上采样模块 GAU

    首先对低层次特征执行 3×3 的卷积操作,以减少 CNN 特征图的通道数。从高层次特征生成的全局上下文信息依次经过 1×1 卷积、批量归一化 (batch normalization) 和非线性变换操作 (nonlinearity),然后再与低层次特征相乘。最后,高层次特征与加权后的低层次特征相加并进行逐步的上采样过程。所以该模块,通过全局池化过程将全局上下文信息作为低层特征的指导,来选择类别的定位细节。

    图4:全局注意力上采样模块


    三、实验

    1、FPA有效性验证

    其中C357代表金字塔结构卷积核大小,MAX和AVE代表池化方式,GP代表global pooling。实验结果表明,ave pooling优于max pooling;使用不同大小的卷积核(C357)好于使用相同卷积核(C333);GP也能稍微提高分割精度,但性能提升主要来源于下面的金字塔注意力分支。

    2、GAU有效性验证

    其中1x1和3x3为减少低层特征通道数的卷积,GP为global context attention branch,结果表明了加入GP明显提高分割miou。

    3、PASCAL VOC 2012结果

    在没有coco预训练的情况下,miou达到84.0%,在该数据集上达到了目前最高性能。

    4、Cityscape实验结果


    登录查看更多
    44

    相关内容

    Pyramid is a small, fast, down-to-earth Python web application development framework.
    专知会员服务
    41+阅读 · 2020年2月20日
    轻量attention模块:Spatial Group-wise Enhance
    极市平台
    15+阅读 · 2019年7月3日
    CVPR2019 | Decoders 对于语义分割的重要性
    计算机视觉life
    48+阅读 · 2019年3月24日
    一文带你读懂 SegNet(语义分割)
    AI研习社
    19+阅读 · 2019年3月9日
    CVPR2019 | 全景分割:Attention-guided Unified Network
    极市平台
    9+阅读 · 2019年3月3日
    Single-Shot Object Detection with Enriched Semantics
    统计学习与视觉计算组
    14+阅读 · 2018年8月29日
    论文笔记之Feature Selective Networks for Object Detection
    统计学习与视觉计算组
    21+阅读 · 2018年7月26日
    DeepLab V3
    计算机视觉战队
    9+阅读 · 2018年4月2日
    DeepLabv3+:语义分割领域的新高峰
    极市平台
    4+阅读 · 2018年3月3日
    Arxiv
    8+阅读 · 2018年5月15日
    VIP会员
    相关VIP内容
    专知会员服务
    41+阅读 · 2020年2月20日
    相关资讯
    轻量attention模块:Spatial Group-wise Enhance
    极市平台
    15+阅读 · 2019年7月3日
    CVPR2019 | Decoders 对于语义分割的重要性
    计算机视觉life
    48+阅读 · 2019年3月24日
    一文带你读懂 SegNet(语义分割)
    AI研习社
    19+阅读 · 2019年3月9日
    CVPR2019 | 全景分割:Attention-guided Unified Network
    极市平台
    9+阅读 · 2019年3月3日
    Single-Shot Object Detection with Enriched Semantics
    统计学习与视觉计算组
    14+阅读 · 2018年8月29日
    论文笔记之Feature Selective Networks for Object Detection
    统计学习与视觉计算组
    21+阅读 · 2018年7月26日
    DeepLab V3
    计算机视觉战队
    9+阅读 · 2018年4月2日
    DeepLabv3+:语义分割领域的新高峰
    极市平台
    4+阅读 · 2018年3月3日
    Top
    微信扫码咨询专知VIP会员