NeurIPS 2022 | 基于双重相似度迁移的弱样本语义分割

2022 年 10 月 13 日 PaperWeekly

©PaperWeekly 原创 · 作者 | 陈俊杰

学校 | 上海交通大学博士生

研究方向 | 弱样本学习

前言

弱样本学习（weak-shot learning）和零样本学习、少样本学习类似，把所有种类划分成没有交集的基础种类和新种类。不同的是，基础种类有大量强标注的训练样本，而新种类有大量弱标注的训练样本。我们实验室去年在 NeurIPS 上发表了弱样本图像分类和弱样本目标检测。幸运的是，今年又在 NeurIPS 上发表了弱样本语义分割。至此，弱样本家族（分类、检测、分割）齐聚 NeurIPS。我们把弱样本学习相关的资料整理在 GitHub 上，也写了一篇简短的 survey，供大家了解弱样本学习。

Survey链接:

https://arxiv.org/pdf/2110.02651.pdf

GitHub链接：

https://github.com/bcmi/Awesome-Weak-Shot-Learning

接下来开始介绍弱样本语义分割。语义分割在现实世界的各种场景下有广泛的应用，而现有的语义分割深度学习方法都需要依赖于大量的精细标注（强标注）的数据。由于这种标注成本是及其昂贵的，所以带有强标注的类别必定是少量的，难以用强标注数据去拓展到更广阔的类别。为了应对这个问题，我们提出了一种新的语义分割学习模式，用弱标注数据去覆盖广阔的类别。

具体来说，针对一些基础种类，我们有像素级别的强标注数据，而针对更为广阔的新种类我们有图片级别的弱标注数据。在该学习模式下，我们提出名为 SimFormer 的方法，在从带有强标注数据的基础种类中迁移双重相似度来辅助从弱标注数据中学习新类别。我们在 COCO-STUFF-10K 和 ADE20K 这两个富有挑战性的语义分割数据集上进行了大量的实验，结果充分证明了这种学习模式和所提出模型方法的有效性。本文已被 NeurIPS2022 接收。

论文标题：

Weak-shot Semantic Segmentation via Dual Similarity Transfer

论文链接：

https://arxiv.org/pdf/2210.02270.pdf

代码链接：

https://github.com/bcmi/SimFormer-Weak-Shot-Semantic-Segmentation

背景简介

语义分割需要为图片中的每一个像素都预测种类标签，所以训练语义分割模型的数据需要像素级别的标注。由于一个图片包含几十上百万个像素，这种强标注的成本是及其昂贵的，难以覆盖到广阔的种类中去。

例如早期的 COCO 数据集，其中只包含了 80 个语义种类，也是一时覆盖最广、数据量最大的数据集了。然而，需要满足现实世界的应用，这些语义种类远远不够，所以后续又产生了 COCO-SUTFF 数据集，把类别拓展到了 171 类。然而这样的拓展是非常麻烦和昂贵的。每次产生新的种类分割需求，都要去再花费昂贵的成本重新为新种类提供像素级别的标注，这也难以可持续性的拓展。

▲ 图1：COCO数据集中已标注数据示例

针对这个问题，我们提出用图片级别的弱标注去覆盖新的种类。例如从 COCO 拓展到 COCO-STUFF，不需要再为新覆盖的 91 个种类提供强标注，只需要为每个样本标注图片级别的标签即可，而图片级别的标签是代价及其小的，可拓展性高的。如图 1 所示，原本的基础类别标注了“猫”“杯子”“床”等种类，但是没有标注“台灯”种类。在我们的学习模式种，如果要新去覆盖“台灯”这个种类，只需要为改图片标记“台灯”标注即可。这无疑极大地降低了拓展时的标注成本，使得语义分割模型对新类别有极大的拓展潜力。

任务定义

在训练阶段，我们有一些基础种类和另一些新种类，两者没有交集。对于数据训练集的每一张图片，其中属于基础种类的像素都带有像素级别的种类标注；其余像素被标记为未知（或忽略）；图片中的新种类带有图片级别的标注，也就是分类标签。该学习模式下的评测阶段与标准的语义分割一致，评测图片可能中可能带有基础种类，也可能带有新种类。这个学习模式被称为弱样本语义分割。

方法

我们的方法依赖于双重相似度迁移：区域-像素相似度（proposal-pixel simialrity）和像素-像素相似度（pixel-pixel simialrity）。方法框架的架构如图 2 所示，整个框架构建在 MaskFormer 之上，依赖于多个查询向量产生区域建议，从而完成从基础种类到新种类的迁移学习。双重相似度的具体细节将在下面两小节依次介绍。

▲ 图2：方法架构图

3.1 区域-像素相似度迁移

我们的方法充分利用 MaskFormer 将语义分割任务解耦成区域分类和区域分割两个子任务的特性来解决弱样本语义分割。如图所示，对于每个输入图片，网络都会产生负责基础种类的区域特征向量和新种类的区域特征向量。对于区域分类的子任务，由于基础种类和新种类都带有分类标签，所以这些区域特征向量都被分类的子任务监督训练。

对于区域分割的子任务，只有基础种类带有像素级别标签，所以只有基础种类的特征向量产生的二值分割图会被像素级别的分割代价函数监督。虽然新种类没有分割代价函数监督，但可以通过区域-像素相似度迁移来产生有效的分割结果。

具体地，二值分割图是通过区域特征向量和像素特征向量做内积计算得来，这可以理解为计算成对的语义相似度，是一个类无关的信息，所以可以跨类别迁移。这个相似度使用基础种类的像素级标注来监督，所以可以迁移到新种类上。

3.2 像素-像素相似度迁移

为了提供更细粒度的监督，我们使用像素-像素相似度迁移来为新种类提供像素级的正则化项。如上图所示，由于所有训练样本都有类别标签，所以对于一个训练样本，可以找到与它包含相同基础种类、新种类的样本，作为参考样本。在两个图片上各自采样一些点，并且枚举构成一些像素点对。

我们将这些像素点对的像素特征向量进行拼接，然后输入若干全连接层组成的像素相似度网络，最后进行二分类，判断两个输入像素是否来自于同一个类别。因为基础种类有像素级标注，所以若其中有一个像素属于某个基础种类，我们可以对这个像素对施加代价函数的监督。

而像素-像素的相似对也属于成对的语义相似度，也可以跨类别进行迁移。所以对于未知的像素对，我们使用上述相似对网络预测它们是否属于同一个类别。若迁移过来的相似度网络认为它们属于同一类别，则让它们对新种类的预测分数接近，反之推远。通过这种方式，我们可以为新种类施加像素级别的正则化项。这部分内容只在训练时起效，无需增加在测试时的计算量。

3.3 补集代价函数

虽然我们对于新种类没有像素级别的标注来提供监督，但我们有一个补集的先验知识，即，基础种类、新种类、忽略种类的并集为整个图片的全集。所以我们让基础种类、新种类、忽略种类的区域特征向量所产生的语义分割结果取并集，要求得到图片的全集。通过这种方式，我们可以对新种类的像素并集施加监督，对模型学习新种类起到一定的帮助作用。

实验

我们在 COCO-Stuff-10K 和 ADE20K 这两个极具挑战性的数据集上进行实验，前者有 171 个语义类别，后者由 150 个语义类别。沿袭之前的零样本、小样本学习的工作，我们按照 3:1 来随机划分基础种类和新种类的类别数量。为了缓解随机带来的不确定性，我们进行了 4 次随机划分来进行实验。

如上表所示，我们的方法极大地超过了对比方法，充分证明了双重相似度迁移的有效性。我们单节段训练的模型就能够达到令人满意的性能，相比于沿袭弱监督语义分割的方法们，同时具有流程少，性能高的两个优点。如果再追加一个生成为伪标签重新训练的阶段，我们的方法可以进一步提高大概 1.9%。相比于全监督的上界方法，我们的带有生成为伪标签重新训练的方法可以达到 77%~89% 的性能比例。所以在两个充满挑战性的数据集上的实验充分展示了弱样本语义分割的潜力以及双重相似度迁移框架的有效性。

两个数据集上的可视化对比如上图所示。沿袭弱监督语义分割的方法容易产生不完整的分割结果，而我们的方法能够产生更完整、精确的语义分割结果。即使在第二、第三行这种复杂的场景种，我们的方法仍然能对新种类产生更好的结果。

总结

在本文中，我们考虑弱样本语义分割任务，也就是在一些带有像素级标签的基础类别的帮助下，从更为易得的带图片集分类标签的数据中学习新种类。特别地，我们提出了基于 MaskFormer 的双重相似度迁移，以及一个补集代价函数来辅助新种类的分割学习。在 COCO-Stuff-10K 和 ADE20K 两个具有挑战性的数据集上的丰富的实验充分表明了本文提出的样本语义分割任务和双重相似度迁移方法的有效性。

更多阅读