【速览】TPAMI 2022 | 基于可配置上下文路径的图像语义分割方法

2022 年 6 月 6 日 中国图象图形学学会CSIG
   


















会“成果速览”系列文章旨在将图像图形领域会议期刊重要成果进行传播,通过短篇文章让读者用母语快速了解相关学术动态,欢迎关注和投稿~











◆ ◆ ◆ ◆

基于可配置上下文路径的图像语义分割方法

Di Lin   , Dingguo Shen  , Yuanfeng Ji    , Siting Shen   , Mingrui Xie   ,
 Wei Feng   , Hui Huang   
   天津大学,   深圳大学
TPAMI 2022
撰稿人:林迪

*通讯作者:冯伟

推荐理事:林宙辰
原文标题: TAGNet: Learning Configurable Context Pathways for Semantic Segmentation
原文链接:https://ieeexplore.ieee.org/document/9763040
代码地址:https://github.com/dilincv/TAGNet









◆ ◆ ◆ ◆


本文简要介绍今年发表在IEEE TPAMI的论文“TAGNet: Learning Configurable Context
Pathways for Semantic Segmentation”的主要工作。论文以图的角度针对现有上下文模型进行比较,针对目前先进的上下文传播方式采用的空间金字塔池化容易丢失底层的细节信息以及上下文增强中先进的的图模型方式需要预训练好的路径,缺少灵活性的问题,提出一种基于可配置上下文路径的图像语义分割方法,称为 Travel-Adapt-Gather network (TAGNet),来增加图像上下文信息聚合的灵活度和提高语义分割的精度。作者通过实验,分别在Cityscapes数据集、PASCAL VOC 2012数据集、COCO-Stuff数据集上验证了该方法完成语义分割任务的有效性。
研究背景

语义分割是推断RGB图像中每个像素的对象标签的一个计算机视觉领域的基本任务。语义分割的挑战主要在于外观的变化和像素级别的物体类别的不确定性,因此在像素间交换上下文信息对于使用卷积神经网络解决此类问题就是很重要的。现有的构造上下文路径的方式主要有构造加权路径[1,2,3]和构造增强路径[4]两种,如图1所示。本文提出基于可配置上下文路径的语义分割方法在不同尺度上选取更有效的信息。

图 1 像素间上下文交换的不同加权路径(a-c)和增强路径(d)方法对比

方法原理简述
 

图 2 模型结构图

图2是模型的整体结构图。首先对输入图像进行裁剪和将裁减之后的图像通过骨干网络得到特征图。然后计算上下文路径,并根据这些上下文路径计算得到外观特征图,并根据上下文路径计算特征图,包括三个部分。第一部分为traveling stage,traveling stage中源像素沿着一系列区域移动其深层特征,并产生一个信息流。第二部分为adaption stage,适应不同的信息流,这些信息流通过可配置的融合区域,并合并成更少但更具代表性的信息流。第三部分为gathering stage, 代表性信息流沿着相关区域序列收集在目标像素处,生成信息增强的特征图。然后我们根据融合系数对增强特征图进行融合得到语义特征图   。最后由语义特征图   计算得到最终的图像语义分割结果。先将语义特征图   通过卷积层得到预测的概率分布,然后对预测的概率分布进行argmax得到最终的语义分割结果。

我们以第n和o个像素之间的信息传播为例,简要阐述traveling,adaption以及gathering的计算流程。在traveling stage中,第n个像素的上下文路径计算如下。其中,   为卷积核参数,   和   为第n个像素的位置和卷积特征向量,   为上下文路径中所穿过的2维图像上的位置。

使用上下文路径进行像素信息的traveling的计算如下。 其中,   为ROI-pooing。我们以   作为traveling在第n个像素的结果。

在adaption stage中,我们令   ,并计算出一组用于adaption的特征向量,计算如下。

通过adaption的特征向量,我们在gathering stage中增强每个像素的特征向量,计算如下。

其中,   的融合了所有adaption特征向量的信息,其计算如下。

最终,我们将用于第o个像素的分割。

主要实验结果及可视化效果
 

本文在Cityscapes数据集、PASCAL VOC 2012数据集、COCO-Stuff数据集上验证了该方法完成语义分割任务的有效性。其中Cityscapes数据集一共19个语义类别,包含2975张训练图片,500张验证图片,1525张测试图片;PASCAL VOC 2012数据集一共21个语义类别,包含10582张训练图片,1449张验证图片,1456张测试图片;COCO-Stuff数据集一共172个语义类别,分为两个版本:一个版本包含9000张训练图片,1000张验证图片;另一个版本包含120000张训练图片,5000张验证图片。图3、图4和图5分别展示在三个不同的数据集上不同方法的分割效果对比。根据表1中所展示的本方法和已有最优图像语义分割方法在不同数据集上的实验结果表明:无论在室内或室外场景,大规模或小规模数据集,本方法的语义分割效果都要比现有的最优方法要好。

 表 1 本方法与现有最优语义分割方法比较

图 3 在Cityscapes数据集上不同方法分割效果对比

图 4 在PASCAL VOC 2012数据集上不同方法分割效果对比

图 5 在COCO-Stuff-10K和-164K数据集上不同方法分割效果对比

图6为TAGNet在Cityscapes数据集上关于可配置上下文路径长度的实验,可以看到在当前实验中T=3达到最佳效果。(T=1表示沿路径没有可配置区域)

图 6 不同可配置路径长度对比

图7为TAGNet在Cityscapes数据集上关于可配置区域大小的实验,可以看到在当前实验中较大的可配置区域会达到更好的效果,但如果可配置区域过大也可能带来较少的性能提升。

图 7 不同可配置区域大小对比

表2为TAGNet在Cityscapes数据集上traveling、adaption、gathering三个模块的消融实验,可以看到三个模块均能给baseline模型带来分割效果的提升。

表 2 消融实验

总结及讨论

本文为了解决上下文交换丢失底层细节信息和缺乏灵活性的问题,提出基于可配置上下文路径的图像语义分割方法,并且在Cityscapes数据集、PASCAL VOC 2012数据集、COCO-Stuff数据集上验证了该方法完成语义分割任务的有效性。

参考文献

[1] L.-C. Chen, G. Papandreou, F. Schroff, and H. Adam. Rethinking atrous convolution for semantic image segmentation. arXiv, 2017.

[2] J. Dai, H. Qi, Y. Xiong, Y. Li, G. Zhang, H. Hu, and Y. Wei. Deformable convolutional networks. In ICCV, 2017.

[3] X. Wang, R. Girshick, A. Gupta, and K. He. Non-local neural networks. In CVPR, 2018.

[4] Z. Huang, X. Wang, L. Huang, C. Huang, Y. Wei, and W. Liu. Ccnet: Criss-cross attention for semantic segmentation. In ICCV, 2019.





中国图象图形学学会2022年度系列奖励推荐工作启动
中国图象图形学学会高校志愿者招募
中国图象图形学学会关于组织开展科技成果鉴定的通知

2022年CSIG图像图形中国行承办方征集中

登录查看更多
0

相关内容

【CVPR2022】循环动态嵌入的视频目标分割
专知会员服务
18+阅读 · 2022年5月16日
【CVPR2022】EDTER:基于Transformer的边缘检测(CVPR2022)
专知会员服务
31+阅读 · 2022年3月18日
【AAAI2022】锚点DETR:基于transformer检测器的查询设计
专知会员服务
12+阅读 · 2021年12月31日
专知会员服务
51+阅读 · 2021年5月30日
【CVPR2021】通道注意力的高效移动网络设计
专知会员服务
18+阅读 · 2021年4月27日
专知会员服务
20+阅读 · 2021年4月2日
【CVPR2021】细粒度多标签分类
专知会员服务
59+阅读 · 2021年3月8日
专知会员服务
83+阅读 · 2021年1月7日
【速览】TNNLS 2022 | DualConv:用于轻量级深度神经网络的双卷积核
中国图象图形学学会CSIG
2+阅读 · 2022年4月11日
TPAMI’21 | 跨域人脸表情识别新基准
极市平台
2+阅读 · 2021年12月5日
实例分割研究综述总结
专知
1+阅读 · 2021年12月3日
【速览】ICCV 2021 | GraphFPN for Object Detection: 图特征金字塔网络
中国图象图形学学会CSIG
0+阅读 · 2021年10月26日
【速览】ICCV 2021丨Visual Saliency Transformer: 视觉显著性转换器
中国图象图形学学会CSIG
1+阅读 · 2021年10月20日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2010年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
11+阅读 · 2022年3月16日
Arxiv
17+阅读 · 2022年2月23日
Arxiv
16+阅读 · 2021年1月27日
Image Segmentation Using Deep Learning: A Survey
Arxiv
43+阅读 · 2020年1月15日
VIP会员
相关VIP内容
【CVPR2022】循环动态嵌入的视频目标分割
专知会员服务
18+阅读 · 2022年5月16日
【CVPR2022】EDTER:基于Transformer的边缘检测(CVPR2022)
专知会员服务
31+阅读 · 2022年3月18日
【AAAI2022】锚点DETR:基于transformer检测器的查询设计
专知会员服务
12+阅读 · 2021年12月31日
专知会员服务
51+阅读 · 2021年5月30日
【CVPR2021】通道注意力的高效移动网络设计
专知会员服务
18+阅读 · 2021年4月27日
专知会员服务
20+阅读 · 2021年4月2日
【CVPR2021】细粒度多标签分类
专知会员服务
59+阅读 · 2021年3月8日
专知会员服务
83+阅读 · 2021年1月7日
相关资讯
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2010年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员