【速览】TPAMI 2022 | 基于可配置上下文路径的图像语义分割方法

2022 年 6 月 6 日 中国图象图形学学会CSIG

学会“成果速览”系列文章旨在将图像图形领域会议期刊重要成果进行传播，通过短篇文章让读者用母语快速了解相关学术动态，欢迎关注和投稿~

◆ ◆ ◆ ◆

基于可配置上下文路径的图像语义分割方法

Di Lin

^{1}

, Dingguo Shen

^{2}

, Yuanfeng Ji

^{2}

, Siting Shen

^{2}

, Mingrui Xie

^{2}

Wei Feng

^{1*}

, Hui Huang

^{2}

^{1}

天津大学，

^{2}

深圳大学

TPAMI 2022

撰稿人：林迪

*通讯作者：冯伟

推荐理事：林宙辰

原文标题： TAGNet: Learning Configurable Context Pathways for Semantic Segmentation

原文链接：https://ieeexplore.ieee.org/document/9763040

代码地址：https://github.com/dilincv/TAGNet

◆ ◆ ◆ ◆

本文简要介绍今年发表在IEEE TPAMI的论文“TAGNet: Learning Configurable Context

Pathways for Semantic Segmentation”的主要工作。论文以图的角度针对现有上下文模型进行比较，针对目前先进的上下文传播方式采用的空间金字塔池化容易丢失底层的细节信息以及上下文增强中先进的的图模型方式需要预训练好的路径，缺少灵活性的问题，提出一种基于可配置上下文路径的图像语义分割方法，称为 Travel-Adapt-Gather network (TAGNet)，来增加图像上下文信息聚合的灵活度和提高语义分割的精度。作者通过实验，分别在Cityscapes数据集、PASCAL VOC 2012数据集、COCO-Stuff数据集上验证了该方法完成语义分割任务的有效性。

研究背景

语义分割是推断RGB图像中每个像素的对象标签的一个计算机视觉领域的基本任务。语义分割的挑战主要在于外观的变化和像素级别的物体类别的不确定性，因此在像素间交换上下文信息对于使用卷积神经网络解决此类问题就是很重要的。现有的构造上下文路径的方式主要有构造加权路径[1,2,3]和构造增强路径[4]两种，如图1所示。本文提出基于可配置上下文路径的语义分割方法在不同尺度上选取更有效的信息。

图 1 像素间上下文交换的不同加权路径(a-c)和增强路径(d)方法对比

方法原理简述

图 2 模型结构图

图2是模型的整体结构图。首先对输入图像进行裁剪和将裁减之后的图像通过骨干网络得到特征图。然后计算上下文路径，并根据这些上下文路径计算得到外观特征图，并根据上下文路径计算特征图，包括三个部分。第一部分为traveling stage，traveling stage中源像素沿着一系列区域移动其深层特征，并产生一个信息流。第二部分为adaption stage，适应不同的信息流，这些信息流通过可配置的融合区域，并合并成更少但更具代表性的信息流。第三部分为gathering stage, 代表性信息流沿着相关区域序列收集在目标像素处，生成信息增强的特征图。然后我们根据融合系数对增强特征图进行融合得到语义特征图 $Y$ 。最后由语义特征图 $Y$ 计算得到最终的图像语义分割结果。先将语义特征图 $Y$ 通过卷积层得到预测的概率分布，然后对预测的概率分布进行argmax得到最终的语义分割结果。

我们以第n和o个像素之间的信息传播为例，简要阐述traveling，adaption以及gathering的计算流程。在traveling stage中，第n个像素的上下文路径计算如下。其中， $W^{l}$ 为卷积核参数， $l_{n,1}$ 和 $b_{n}$ 为第n个像素的位置和卷积特征向量， $\left\{l_{n,2,..,l_{n,T}} \right\}$ 为上下文路径中所穿过的2维图像上的位置。

使用上下文路径进行像素信息的traveling的计算如下。其中， $\mathit{p}$ 为ROI-pooing。我们以 $f_{n,T}$ 作为traveling在第n个像素的结果。

在adaption stage中，我们令 $f_{n}=f_{n,T}$ ，并计算出一组用于adaption的特征向量，计算如下。

通过adaption的特征向量，我们在gathering stage中增强每个像素的特征向量，计算如下。

其中， ${f}'_{o,T}$ 的融合了所有adaption特征向量的信息，其计算如下。

最终，我们将用于第o个像素的分割。

主要实验结果及可视化效果

本文在Cityscapes数据集、PASCAL VOC 2012数据集、COCO-Stuff数据集上验证了该方法完成语义分割任务的有效性。其中Cityscapes数据集一共19个语义类别，包含2975张训练图片，500张验证图片，1525张测试图片；PASCAL VOC 2012数据集一共21个语义类别，包含10582张训练图片，1449张验证图片，1456张测试图片；COCO-Stuff数据集一共172个语义类别，分为两个版本：一个版本包含9000张训练图片，1000张验证图片；另一个版本包含120000张训练图片，5000张验证图片。图3、图4和图5分别展示在三个不同的数据集上不同方法的分割效果对比。根据表1中所展示的本方法和已有最优图像语义分割方法在不同数据集上的实验结果表明：无论在室内或室外场景，大规模或小规模数据集，本方法的语义分割效果都要比现有的最优方法要好。

表 1 本方法与现有最优语义分割方法比较