ECCV oral|弱监督语义分割SOTA，高效挖掘跨图像的语义关系

2020 年 8 月 3 日 新智元

新智元推荐

编辑：白峰

【新智元导读】近日，由苏黎世联邦理工学院，商汤研究院和上交清源研究院共同提出的弱监督语义分割，被ECCV2020大会作为Oral论文接收，在CVPR2020 LID Challenge WSSS赛道夺冠并荣获CVPR2020 LID Workshop Best Paper。该研究创新性地提出了两种注意力机制，有效提升了弱监督语义分割效果，在PASCAL数据集上取得了多个SOTA。

近年来，基于图像标签信息（image-level label）的弱监督语义分割（WSSS）方法主要基于以下步骤：训练图像分类器，通过分类器的CAM获取每张图像在分类中被激活的区域（物体定位图），之后生成伪标签mask作为监督信号训练语义分割模型。

这种方法面临的挑战是：CAM生成的物体定位图仅关注物体中最具辨识度的区域，而不是物体整体。

最近由苏黎世联邦理工学院等研究机构共同提出的弱监督语义分割为这一问题的解决提供了新的思路。

本文设计了协同注意力分类器（co-attention classifier），在分类器中引入两种注意力模型来帮助分类器识别更多的物体区域：协同注意力（co-attention）用于帮助分类器识别一对图像之间共同的语义信息（common semantics），而且能够在物体定位图（object localization maps）的推理过程中利用上下文信息；对比协同注意力（contrastive co-attention）用于识别一对图像之间不同的语义信息（unshared semantics）。

更加注重图像间语义关系的弱监督学习

当前的研究主要关注如何通过改进分类器结构或者利用复杂多轮的训练方式，提升CAM的定位能力。尽管取得了不少进展，但这些工作一般只关注于单张图像的信息（如图1 (a)所示），却忽略了不同图像之间的语义关系。

图1 传统的WSSS方法

不同于当前的主流算法，本文通过挖掘图像对（image pairs）之内的语义关系（如图2(b)所示），能够使图像中的物体有更多区域被分类器激活。

本文在传统的分类器中引入了两种注意力机制：协同注意力和对比协同注意力。前者帮助分类器发现两张图像之间共同的语义信息，后者帮助分类器关注两张图像之间不同的语义信息。

两种注意力机制相互合作并互为补充，使得分类器在学习过程中更加全面的关注图像中的物体。

除此之外，本文的注意力机制也能在获取物体定位图的过程（如图2 (c)所示）中起作用。在获取某张图像的物体定位图时，通过使用相关的图像（和该图像包含某些相同的语义类别）发现更多的相似物体区域，从而获得更高质量的物体定位图。

图2 基于协同注意力机制的WSSS方法

两种注意力机制，让挖掘语义信息更高效

本文的分类器基于孪生神经网络（Siamese network），作用于图像对，协同注意力模块用于挖掘两张图像中相同的语义信息（Person），而对比协同注意力模块则关注于两张图像中独有的语义信息（Cow和Table）。

图3 本文提出的协同注意力分类器的整体框架和相关可视化中间结果。

传统分类器： 首先，同时输入两张图像，分别经过编码器encoder提取特征，再经全局池化（GAP）和全连接层（FC），得到各自的分类概率。损失函数以Cross Entropy（CE）计算，可视为传统学习传统分类器的标准操作：

协同注意力机制：在标准分类器的基础之上，将两张图像的特征Fm和Fn输入协同注意力模块，来挖掘两张图像中相同的语义信息，协同注意力矩阵P计算如下：

P包含着两张图像中每两个位置间的相似度。之后通过以下矩阵操作，可以分别得到两张图像的协同注意力特征（co-attention feature）：

每张图的协同注意力特征仅包含两张图共有类（人）的语义信息（如上图），因此可以用共同的类

（Person）来监督该特征的学习。损失函数计算如下：

直观而言，对于上图中的例子，通过协同注意力机制，不仅人的脸（最具分辨性的区域），人的其他部位，如手臂和腿，都被co-attention feature highlight出来，这时，分类器根据分类信号

（Person）能够意识到，不仅人的脸和Person这一label相关，其它highlight出来的区域也和Person相关，从而能够将类别标签和更多的物体区域关联起来。

对比协同注意力机制：利用对比协同注意力分别关注两张图中独有的语义信息。图像In的特有类

是Cow，Im的特有类

是Table。对比协同注意力特征计算如下：

因为对比协同注意力特征包含着两张图中特有的信息（如上图），分别用两张图中特有的类别来监督对比协同注意力特征的学习。损失函数计算如下：

直观而言，对于上图中的例子，通过对比协同注意力机制，两张图像中的共有类（Person）的语义信息被滤掉。

对比协同注意力机制的本质是使共有与非共有信息解耦和。

一方面分类器可以有机会直接关注到两张图像中非共有的物体。另一方面，如果Cow或Table的一部分也被错误的认为和person相关并被过滤掉了，此时分类器可能难以从剩余的对比协同注意力特征中分辨出Cow或Table。因此，对比协同注意力也以迫使分类器更好的区分不同类别的语义信息。

损失函数 ：协同注意力分类器的损失函数是以上三个损失函数之和：

获取物体定位图：不同于以往算法只将单张图像输入到训练好的分类器生成物体定位图。协同注意力分类器训练好后，在生成一张训练图像中的某一个标签类的物体定位图时，同时采集若干张同时具有该类别的图像，分别和该训练图像输入到协同注意力分类器，计算协同注意力特征，并将所产生的对应于该类别的CAM相加平均得到该类的物体定位图。

由此，协同注意力分类器可以利用上下文信息辅助物体定位图的推理。

更深入的机理探讨：从辅助任务学习（auxiliary-task learning）的角度，协同注意力分类器可以理解为在传统的分类任务（识别单张图像的语义信息）之外，引入了两个任务：预测两张图像中共有的以及独有的语义信息，因此给训练分类器提供了更多的监督信号。

从图像协同分割（image co-segmentation）的角度，既然数据集给出了两张图像是否含有相同的类别，那么这一信息也应该被挖掘成为监督信号来训练分类器。

实验结果：抗干扰好迁移，拿到多个SOTA

以标准设置，在PASCAL VOC 2012上进行实验，结果如下图：

该图中(a),(b),(c)分别对应三种不同的WSSS设置：(a)表示仅使用PASCAL VOC 2012数据集；(b)表示额外使用单标签图像（如ImageNet）；(c)表示额外使用网上抓取的数据（Web data）。

实验结果表明，在三种设置中，本文所提出的方法都得到SOTA效果。

针对单标签图像引入的领域差异（domain gap）的问题，Co-attention矩阵WpF 具备将不同数据源数据映射到统一空间的能力，设置(b)下的实验表明，所提出的方法能有效的处理领域差异。

而网上抓取的数据中不可避免包含很多噪音，因为本文的算法利用多张图像的上下文信息，能够自然的增强分类器的鲁棒性，设置(c)下的实验也清楚地证明了这一点。

以本文算法为核心的方案，在CVPR2020 LID Challenge的WSSS 赛道，以绝对优势获得冠军。比赛最终结果如下图所示。

LID2019和LID2020使用相同数据，但LID2019允许使用全监督训练的显著性（saliency）模型来提升结果。可以看到，在LID2020不允许使用额外显著性数据的前提下，本文的性能甚至明显超过了LID2019的冠军。

消融实验表明本文提出的协同注意力和对比协同注意力能够有效提高WSSS的性能。

结论

不同于当前主流算法只关注单一图像中的信息，本文提出利用图像之间丰富的语义关系，有效提升了CAM对物体整体的定位准确度。主要亮点如下：

1. 不同于之前细化分类网络或多步骤训练方法，本文在思想上另辟蹊径，设计了协同注意力（co-attention）和对比协同注意力（contrastive co-attention）机制，分别挖掘跨图像的（cross-image）共同语义信息（common semantics）和独有语义信息（unshared semantics），极大提高了CAM定位的准确度。

2. 协同注意力机制，不仅能在训练过程中促进对物体整体模式的学习，而且能够在物体定位图（object localization maps）的推理过程中利用上下文信息。

3. 当前的WSSS算法中，除了利用PASCAL数据集标注训练（标准设置），有的工作还利用单标签数据（single-label image），或者使用网上抓取的数据（webly supervised）。但后两者包含了领域迁移和噪声干扰的难题。本文提出的方法利用一个统一的网络架构，可以优雅的解决以上三种设置，并在不同设置中都获得SOTA。

4. 以本文算法为核心的方案在CVPR2020 LID Challenge WSSS赛道以高出第二名7%IoU的优势夺冠。

弱监督语义分割近年来受到越来越广泛的关注，虽然和全监督学习语义分割的差距在逐渐缩小，但仍有很大差距。相信随着技术的不断进步，弱监督学习在其他领域的应用也将逐渐铺开。