语义分割-多层特征融合

2020 年 3 月 12 日 CVer

点击上方“CVer”,选择加"星标"或“置顶”

重磅干货,第一时间送达

者:杨奎元-深动

https://zhuanlan.zhihu.com/p/110667995

本文已由原作者授权,不得擅自二次转载


语义分割,也称为像素级分类问题,其输出和输入分辨率相同(如题图中,左边为2048x1024分辨率的Cityscapes街景图像,输入模型,得到右边同样分辨率的语义图)。由此,语义分割具有两大需求,即高分辨率和高层语义,而这两个需求和卷积网络设计是矛盾的。

卷积网络从输入到输出,会经过多个下采样层(一般为5个,输出原图1/32的特征图),从而逐步扩大视野获取高层语义特征,高层语义特征靠近输出端但分辨率低,高分率特征靠近输入端但语义层次低。高层特征和底层特征都有各自的弱点,各自的分割问题如图1所示,第二行高层特征的分割结果保持了大的语义结构,但小结构丢失严重;第三行低层特征的分割结果保留了丰富的细节,但语义类别预测的很差。

图1:不同层特征分割结果(图源[4])。

一个自然的想法就是融合高低层特征,取长补短,分割经典工作FCN和U-Net均采用了这个策略,物体检测中常用的特征金字塔网络(FPN)也是采用了该策略。为下文需要,先介绍两类融合策略,一类是FPN,先自下而上获取高层语义特征,再通过自上而下逐步上采样高层语义特征,并融合对应分辨率的下层特征;另一类是HRNet,自下而上包含多个分辨率通路,不同分辨率特征在自下而上过程中及时进行融合。

图2:FPN(图源[5])
图3:HRNet(图源[6])

待融合的低分辨率高层特征一般通过双线性插值到低层特征的相同分辨率,然后通过相加或沿通道维拼接的方式进行融合。这里引入了两个问题,1.是否每个位置的高低层特征都是同等有效;2.高低层特征空间上存在对不齐的问题,简单上采样无法解决。

对问题1,我们提出了GFF,借鉴LSTM中的Gate机制,在不同位置给高低层特征根据有效性,给予不同的加权。

图4:GFF(图源[3])

对问题2,最近arXiv上先后放出了两篇工作[1, 2],都是借鉴光流(对齐不同帧图像)来对齐不同层特征。其中,Semantic Flow [1]是基于FPN的自上而下策略,AlignSeg [2]是基于HRNet的自下而上策略。

Semantic Flow实现非常简单,首先引入Flow Alignment Module (FAM,图5),然后改造FPN(图6)。该方法由于没有使用常用的高层用带孔卷积替代下采样操作,整个网络计算量小、显存消耗少。

图5: FAM (图源[1])
图6:SFNet(图源[1])

该方法的优势是既快又准,如下图所示,ResNet18 backbone以26 FPS速度取得了80.4 mIoU。

图7:分割精度 vs 速度(图源[1])

AlignSeg采用类似HRNet保持分辨率的做法(图7),在保持分辨率过程中使用特征对齐模块(AlignFA)进行不同分辨特征之间的融合。

图8: AlignSeg(图源[2])

这里面还要很多问题待探究,比如:

  1. 用于特征对齐的最优网络结构应该怎么设计?目前是采用了类似FlowNet-S的结构,FlowNet-C结构不适合于该任务,原因是高低层特征之间不能像前后帧图像对应层特征之间算相似性。

  2. 高低层特征对不齐的原因是什么?

  3. 能否在对不齐发生时就记录下来,而不是事后补救(类似SegNet那种记录Pooling Indices的方式)?

参考文献

[1] Xiangtai Li, Ansheng You et al. Semantic Flow for Fast and Accurate Scene Parsing. arXiv:2002.10120.

[2] Zilong Huang et al. AlignSeg: Feature-Aligned Segmentation Networks. arXiv: 2003.00872.

[3] Xiangtai Li et al. GFF: Gated Fully Fusion for Semantic Segmentation. AAAI, 2020.

[4] Rudra P K Poudel et al. ContextNet: Exploring Context and Detail for Semantic Segmentation in Real-time. arXiv:1805.04554.

[5] Tsung-Yi Lin et al. Feature Pyramid Networks for Object Detection. CVPR, 2017.

[6] Ke Sun et al. Deep High-Resolution Representation Learning for Human Pose Estimation. CVPR, 2019.


推荐阅读


2020年AI算法岗求职群来了(含准备攻略、面试经验、内推和学习资料等)


重磅!CVer-图像分割 交流群已成立


扫码添加CVer助手,可申请加入CVer-图像分割 微信交流群,目前已满1200+人,旨在图像分割相关等内容。


一定要备注:研究方向+地点+学校/公司+昵称(如图像分割+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲长按加群


▲长按关注我们

麻烦给我一个在看!

登录查看更多
4

相关内容

语义分割,在机器学习上,多指对一段文本或者一张图片,提取其中有意义的部分,我们将这些有意义的部分称为语义单元,将这些语义单元提取出来的过程,称为语义分割。
【CVPR 2020-商汤】8比特数值也能训练卷积神经网络模型
专知会员服务
25+阅读 · 2020年5月7日
【CVPR2020-百度】用于视觉识别的门控信道变换
专知会员服务
12+阅读 · 2020年3月30日
专知会员服务
41+阅读 · 2020年2月20日
语义分割中的Attention和低秩重建
极市平台
37+阅读 · 2019年9月1日
PSPNet ——语义分割及场景分析
AI科技评论
20+阅读 · 2019年8月20日
一文概览用于图像分割的CNN
论智
14+阅读 · 2018年10月30日
《pyramid Attention Network for Semantic Segmentation》
统计学习与视觉计算组
44+阅读 · 2018年8月30日
特征金字塔网络FPN的直觉与架构
论智
11+阅读 · 2018年8月6日
一文概览主要语义分割网络:FCN,SegNet,U-Net...
极市平台
5+阅读 · 2018年6月8日
DeepLabv3+:语义分割领域的新高峰
极市平台
4+阅读 · 2018年3月3日
用于RGB-D室内场景语义分割的门式融合局部感知反卷积网络
机器学习研究会
7+阅读 · 2017年10月30日
专栏 | CVPR 2017论文解读:特征金字塔网络FPN
机器之心
8+阅读 · 2017年7月25日
UPSNet: A Unified Panoptic Segmentation Network
Arxiv
4+阅读 · 2019年1月12日
Arxiv
7+阅读 · 2018年12月10日
Arxiv
5+阅读 · 2018年4月17日
Arxiv
3+阅读 · 2018年3月5日
VIP会员
相关资讯
语义分割中的Attention和低秩重建
极市平台
37+阅读 · 2019年9月1日
PSPNet ——语义分割及场景分析
AI科技评论
20+阅读 · 2019年8月20日
一文概览用于图像分割的CNN
论智
14+阅读 · 2018年10月30日
《pyramid Attention Network for Semantic Segmentation》
统计学习与视觉计算组
44+阅读 · 2018年8月30日
特征金字塔网络FPN的直觉与架构
论智
11+阅读 · 2018年8月6日
一文概览主要语义分割网络:FCN,SegNet,U-Net...
极市平台
5+阅读 · 2018年6月8日
DeepLabv3+:语义分割领域的新高峰
极市平台
4+阅读 · 2018年3月3日
用于RGB-D室内场景语义分割的门式融合局部感知反卷积网络
机器学习研究会
7+阅读 · 2017年10月30日
专栏 | CVPR 2017论文解读:特征金字塔网络FPN
机器之心
8+阅读 · 2017年7月25日
Top
微信扫码咨询专知VIP会员