上海交大最新《标签高效深度分割》研究进展综述，全面阐述无监督、粗监督、不完全监督和噪声监督的深度分割方法

2022 年 7 月 7 日 专知

【导读】图像分割是计算机视觉的基本任务之一。上海交大等学者最新发布了《标签高效深度分割》研究进展综述，阐述了标签高效分割方法，弥合弱监督和密集预测之间的差距

随着深度学习的快速发展，计算机视觉的基本任务之一分割技术取得了很大的进展。然而，目前的分割算法主要依赖于像素级注释的可用性，这通常是昂贵的、繁琐的和费力的。为了减轻这种负担，在过去的几年里，人们越来越关注建立高效标签、基于深度学习的分割算法。本文对标签高效分割方法进行了全面的综述。为此，我们首先根据不同类型的弱标签(包括无监督、粗监督、不完全监督和噪声监督)提供的监督，并辅以分割问题类型(包括语义分割、实例分割和全景分割)，制定了一个分类法来组织这些方法。接下来，我们从统一的角度总结了现有的标签高效分割方法，讨论了一个重要的问题: 如何弥合弱监督和密集预测之间的差距——目前的方法大多基于启发式先验，如跨像素相似度、跨标签约束、跨视图一致性、跨图像关系等。最后，我们对标签高效深度分割的未来研究方向提出了自己的看法。

https://www.zhuanzhi.ai/paper/86d0731ecdbe2ba07d68363c93b7626a

分割是计算机视觉中最古老和最广泛研究的任务之一。它的目标是对给定的图像产生密集的预测，例如，给每个像素分配一个预定义的类标签(语义分割)[1]，[2]或将每个像素与一个对象实例(实例分割)[3]关联起来，或两者的组合(全景分割)[4]，这使语义相似的像素能够分组成高级有意义的概念，如对象(人、猫、球等)和东西(道路、天空、水等)。近十年来，深度卷积神经网络(deep convolutional neural networks, CNNs)尤其是全卷积网络(fully convolutional networks, FCNs)[20]凭借其强大的密集表示学习能力，在[5]、[6]、[7]、[8]、[9]、[10]、[11]、[12]、[13]、[14]、[15]、[16]、[17]、[18]、[19]上取得了巨大的成功。然而，这些基于深度学习的分割方法在密集的标签中蓬勃发展，即像素级标注，获取成本高且费力。

鉴于现实世界中标签的普遍稀缺性，开发基于弱标签监督(弱监督)来减少对密集标签依赖的标签高效深度分割方法成为一种日益发展的趋势，吸引了越来越多研究者的关注。因此，近年来提出的标签高效的深度分割方法数量呈爆发式增长，这使得研究人员难以跟上新的进展。因此，迫切需要对这些标签高效的深度分割方法进行研究。然而，据我们所知，目前仅有[21]，[22]这几篇相关的调研论文，它们仅仅关注于一个特定的分割任务，并对有限类型的弱标签进行监督。

本文提出了分类标签的高效深度分割方法，根据类型分类的弱监督(上半部分)和类型分类的分割问题。与填充点和空心点的交互表明，在某些类型的弱监督下，分割问题分别已经被探索和没有被探索。对于前者，本文提供了一些具有代表性的工作。

本文旨在对近年来标签高效的深度分割方法进行全面的综述。这些方法关注不同的问题。这里，一个问题被定义为一个特定的分割问题，即语义分割、实例分割和全景分割，具有某种类型的弱监督。为了将这些方法组织起来解决各种各样的问题，我们需要解决两个问题:1)如何建立这些方法的分类?2)如何从统一的角度总结这些方法所使用的策略?我们注意到，弱标记的类型是设计高效标记分割方法的关键。因此，我们试图从监管薄弱的角度来回答上述两个问题。为此，我们首先给出弱监督的类型分类，它是层次化的，如图1所示。弱监督包括的类型：

1) 无监督 : 对任何训练图像不做任何标注(图2 (a));

2) 粗监督 : 对所有训练图像都进行标注，但对每个图像的标注都是粗级的，并没有完全覆盖所有像素点的标签(图2 (b))。根据粗级标注的类型，粗级监督可分为(i)图像级监督、(ii)框级监督和(iii)涂鸦级监督;

3) 不完全监督 : 只对训练图像的子集提供逐像素注释(图2 (c))。不完全监督可以分为以下三种: 半监督，即对剩余的训练图像没有标注; 针对领域的监督，即对剩余的训练图像来自不同的领域; 部分监督，即对剩余的训练图像进行粗级标注，如框级标注; 4) 噪声监督:对所有训练图像都进行逐像素标注，但存在标注误差(图2 (d))。

基于这种弱监督的层次类型分类，可以为标签高效的深度分割方法建立分类体系。如图1所示，该分类主要是根据弱监督的类型，辅以分割问题的类型来构建的:横轴和纵轴分别表示不同类型的弱监督和分割任务;每一个交集表示对应的分割任务与对应的弱监督的问题，其中与填充点和空心点的交互分别表示问题已经探索和未探索;对于彩色填充点的每一个交点，即一个问题，给出了一些具有代表性的工作。

由于这些不同问题的共同挑战在于弱标签和密集预测之间的较大监督差距，我们可以从统一的角度总结出应对这些问题的策略: 如何弥合这一监督差距?这需要一些启发式先验，例如:1)跨标签约束:弱标签和密集标签之间存在自然约束，如图像级类别标签表明至少有一个像素的标签应该与该图像级类别标签相同; 2)跨像素相似性:颜色、亮度、纹理等线索高度相似的像素可能属于同一语义区域;3) 跨视图一致性: 同一图像的不同视图在密集表示和预测上都表现出一致性;4)跨图像关系:同一类别的物体在不同图像上的像素之间具有语义关系，从弱标签产生伪密集监督。从这个角度来看，很有趣的是，利用上述先验的类似策略被用于不同的分割问题，如表1所示。

本文的其余部分组织如下。我们首先从统一的角度对不同的标签有效分割问题给出数学定义。在第二节。然后我们根据我们的分类方法回顾了现有的标签有效分割方法:第3节中没有监督的分割，第4节中有粗监督的分割，第5节中有不完全监督的分割，第6节中有噪声监督的分割。在最后的部分，我们给出了我们的结论，并讨论了几个研究方向和挑战。

无监督

无监督的分割，即在文献[23]，[43]，[53]，[54]中又称为无监督(语义)分割。早期通过对手工制作的图像特征进行K-means、Graph Cut[55]等聚类算法实现无监督分割，将图像划分为多个自相似性较高的分段。最近，随着无监督特征表示学习的快速发展，特别是由MoCo [56]， SimCLR [57]， BYOL[58]等推广，无监督密集特征表示学习促进了无监督分割，它通过一个由θ参数化的深度网络fθ，在没有任何标签的情况下，为给定的图像X学习一个密集的特征映射Z = fθ(X)，其中zi是空间位置i的特征表示。一个经过良好学习的密集特征映射具有这样的性质:来自同一语义区域(物体/东西)的像素具有相似的特征表示，来自不同语义区域的像素具有不同的特征表示。有了学习良好的密集特征图，分割可以直接方便，因为训练一个良好的分割模型成为一个简单的任务。由于不提供监督，解决无监督分割的关键是如何获取监督信号。目前的方法试图根据一些启发式先验来生成密集的自监督信号，如跨像素相似度、跨视图一致性和跨图像关系，如表1所示。

粗监督

如图2和表2所示，根据粗级标注的类型，粗监督分为图像级(对每个训练图像只提供类别标签)、框级(对每个训练图像除了类别标签外，还对物体边界框进行标注)和涂鸦级(对每个训练图像中的像素子集进行标注)。粗监督分割在文献中也被称为弱监督分割。虽然从广义上讲，这个词也可以指与其他类型的弱监督的分割，如不完全监督，但我们在本节的宝贵文献之后，特指粗监督的分割。