《pyramid Attention Network for Semantic Segmentation》

2018 年 8 月 30 日 统计学习与视觉计算组
《pyramid Attention Network for Semantic Segmentation》

CVPR2018论文

论文链接:https://arxiv.org/pdf/1805.10180.pdf

一、背景

1、语义分割难点

  (1)物体尺度不一,存在多尺度目标,小物体分割效果不好;

  (2)类别较多,存在类内相异类间相似等问题,导致类别分类错误、类内不连续。

2、网络结构设计

      (1)Encoder部分

    扩大感受野,获得更多全局信息,如空洞卷积,但可能会导致产生网格伪像,影响小物体的预测;利用空间金字塔结构,融合多尺度的特征信息,但可能会丢失像素级别的定位信息;

      (2)Decoder部分

    下采样过程中丢失空间信息,所以上采样过程中利用多阶段的low-level特征辅助恢复空间位置信息。

    3、作者方法

    作者受SE-NET的启发,将注意力机制和空间金字塔相结合,来提取准确而密集的特征并获取像素标签。具体来说,作者提出了两个模块,特征金字塔注意力模块(FPA )和全局注意力上采样模块(GAU),FPA能够提供像素级注意力信息并通过金字塔结构来扩大感受野的范围,GAU 模块利用高层特征来指导低层特征恢复图像像素的定位。结合这两个模块,提出PAN网络。

    图1:VOC 数据集的可视化结果

    二、网络结构

    1、金字塔注意力网络 PAN

    图2:金字塔注意力网络结构


    2、特征金字塔注意力模块 FPA

    FPA模块包括两个分支,上面分支通过global pooling获取全局上下文信息;下面分支基于金字塔结构,用不同大小的卷积核(3×3, 5×5, 7×7),提取不同尺度的上下文信息,然后逐步融合相邻尺寸的特征,接着与1×1卷积后feature map进行逐像素点成,获取像素级注意力特征;最后将两个分支特征进行逐像素相加。所以FPA 模块可以融合不同尺度的上下文信息,同时还能为高层次的特征图提供更好的像素级注意力。


    图3:特征金字塔注意力模块结构


    3、全局注意力上采样模块 GAU

    首先对低层次特征执行 3×3 的卷积操作,以减少 CNN 特征图的通道数。从高层次特征生成的全局上下文信息依次经过 1×1 卷积、批量归一化 (batch normalization) 和非线性变换操作 (nonlinearity),然后再与低层次特征相乘。最后,高层次特征与加权后的低层次特征相加并进行逐步的上采样过程。所以该模块,通过全局池化过程将全局上下文信息作为低层特征的指导,来选择类别的定位细节。

    图4:全局注意力上采样模块


    三、实验

    1、FPA有效性验证

    其中C357代表金字塔结构卷积核大小,MAX和AVE代表池化方式,GP代表global pooling。实验结果表明,ave pooling优于max pooling;使用不同大小的卷积核(C357)好于使用相同卷积核(C333);GP也能稍微提高分割精度,但性能提升主要来源于下面的金字塔注意力分支。

    2、GAU有效性验证

    其中1x1和3x3为减少低层特征通道数的卷积,GP为global context attention branch,结果表明了加入GP明显提高分割miou。

    3、PASCAL VOC 2012结果

    在没有coco预训练的情况下,miou达到84.0%,在该数据集上达到了目前最高性能。

    4、Cityscape实验结果


    登录查看更多
    40

    相关内容

    Pyramid is a small, fast, down-to-earth Python web application development framework.

    题目: Self-supervised Equivariant Attention Mechanism for Weakly Supervised Semantic Segmentation

    摘要: 图像级弱监督语义分割是近年来深入研究的一个具有挑战性的问题。大多数高级解决方案都利用类激活映射(CAM)。然而,由于监督的充分性和弱监督的差距,CAMs很难作为目标掩模。在这篇论文中,我们提出了一个自我监督的等变注意机制(SEAM)来发现额外的监督并缩小差距。我们的方法是基于等方差是完全监督语义分割的一个隐含约束,其像素级标签在数据扩充过程中与输入图像进行相同的空间变换。然而,这种约束在图像级监控训练的凸轮上丢失了。因此,我们提出了对不同变换图像的预测凸轮进行一致性正则化,为网络学习提供自监督。此外,我们提出了一个像素相关模块(PCM),它利用上下文外观信息,并改进当前像素的预测由其相似的邻居,从而进一步提高CAMs的一致性。在PASCAL VOC 2012数据集上进行的大量实验表明,我们的方法在同等监督水平下表现优于最先进的方法。

    成为VIP会员查看完整内容
    0
    60

    We present an end-to-end method for the task of panoptic segmentation. The method makes instance segmentation and semantic segmentation predictions in a single network, and combines these outputs using heuristics to create a single panoptic segmentation output. The architecture consists of a ResNet-50 feature extractor shared by the semantic segmentation and instance segmentation branch. For instance segmentation, a Mask R-CNN type of architecture is used, while the semantic segmentation branch is augmented with a Pyramid Pooling Module. Results for this method are submitted to the COCO and Mapillary Joint Recognition Challenge 2018. Our approach achieves a PQ score of 17.6 on the Mapillary Vistas validation set and 27.2 on the COCO test-dev set.

    0
    4
    下载
    预览
    小贴士
    相关资讯
    轻量attention模块:Spatial Group-wise Enhance
    极市平台
    13+阅读 · 2019年7月3日
    CVPR2019 | Decoders 对于语义分割的重要性
    计算机视觉life
    47+阅读 · 2019年3月24日
    一文带你读懂 SegNet(语义分割)
    AI研习社
    9+阅读 · 2019年3月9日
    CVPR2019 | 全景分割:Attention-guided Unified Network
    极市平台
    8+阅读 · 2019年3月3日
    Single-Shot Object Detection with Enriched Semantics
    统计学习与视觉计算组
    13+阅读 · 2018年8月29日
    论文笔记之Feature Selective Networks for Object Detection
    统计学习与视觉计算组
    17+阅读 · 2018年7月26日
    DeepLab V3
    计算机视觉战队
    6+阅读 · 2018年4月2日
    DeepLabv3+:语义分割领域的新高峰
    极市平台
    3+阅读 · 2018年3月3日
    相关VIP内容
    专知会员服务
    35+阅读 · 2020年2月20日
    相关论文
    Liang Sun,Bing Li,Chunfeng Yuan,Zhengjun Zha,Weiming Hu
    4+阅读 · 2019年5月8日
    Cross-Modal Self-Attention Network for Referring Image Segmentation
    Linwei Ye,Mrigank Rochan,Zhi Liu,Yang Wang
    13+阅读 · 2019年4月9日
    FocusNet: An attention-based Fully Convolutional Network for Medical Image Segmentation
    Chaitanya Kaul,Suresh Manandhar,Nick Pears
    4+阅读 · 2019年2月8日
    Panoptic Segmentation with a Joint Semantic and Instance Segmentation Network
    Daan de Geus,Panagiotis Meletis,Gijs Dubbelman
    4+阅读 · 2018年9月6日
    BiSeNet: Bilateral Segmentation Network for Real-time Semantic Segmentation
    Changqian Yu,Jingbo Wang,Chao Peng,Changxin Gao,Gang Yu,Nong Sang
    4+阅读 · 2018年8月2日
    A Fully Convolutional Two-Stream Fusion Network for Interactive Image Segmentation
    Yang Hu,Andrea Soltoggio,Russell Lock,Steve Carter
    5+阅读 · 2018年7月6日
    Combining Pyramid Pooling and Attention Mechanism for Pelvic MR Image Semantic Segmentaion
    Ting-Ting Liang,Satoshi Tsutsui,Liangcai Gao,Jing-Jing Lu,Mengyan Sun
    7+阅读 · 2018年6月28日
    Marvin T. T. Teichmann,Roberto Cipolla
    7+阅读 · 2018年5月15日
    Jose Dolz,Karthik Gopinath,Jing Yuan,Herve Lombaert,Christian Desrosiers,Ismail Ben Ayed
    6+阅读 · 2018年4月9日
    Jonathan Long,Evan Shelhamer,Trevor Darrell
    3+阅读 · 2015年3月8日
    Top