Transformer如何做视觉分割？南洋理工最新《基于Transformer的视觉分割》综述，详述120多个深度分割模型

视觉分割旨在将图像、视频帧或点云划分为多个片段或组。这项技术在诸如自动驾驶、图像编辑、机器人感知和医学分析等众多实际应用中具有重要意义。在过去的十年里，基于深度学习的方法在这个领域取得了显著进展。最近，一种最初为自然语言处理设计的基于自注意力的神经网络Transformer，在各种视觉处理任务中大大超越了之前的卷积或循环方法。具体来说，视觉Transformer为各种分割任务提供了强大、统一且更简单的解决方案。本综述为基于Transformer的视觉分割提供了一个详尽的概述，总结了近期的进展。我们首先回顾背景，包括问题定义、数据集和先前的卷积方法。接下来，我们总结了一个统一所有最近基于变换器的方法的元架构。基于这个元架构，我们检查各种方法设计，包括对元架构的修改和相关应用。我们还介绍了几个密切相关的设置，包括3D点云分割、基础模型调优、领域感知分割、高效分割和医学分割。此外，我们汇编并重新评估了在一些公认的数据集上的所审查方法。最后，我们确定了这个领域的开放性挑战，并提出了未来研究的方向。项目页面可以在https://github.com/lxtGH/Awesome-Segmenation-With-Transformer找到。我们还将持续关注这个快速发展领域的动态。1. 引言****视觉分割旨在将给定图像或视频的像素分组为一组语义区域。这是计算机视觉中的一个基本问题，涉及到诸多实际应用，如机器人技术、自动监控、图像/视频编辑、社交媒体、自动驾驶等。从手工特征提取方法[1]、[2]和经典机器学习模型[3]、[4]、[5]开始，分割问题已经得到了大量的研究关注。在过去的十年里，深度神经网络，如卷积神经网络（CNNs）[6]、[7]、[8]，例如全卷积网络（FCNs）[9]、[10]、[11]、[12]在不同的分割任务中取得了显著成功，并带来了更好的结果。与传统分割方法相比，基于CNN的方法具有更好的泛化能力。由于它们的卓越性能，CNN和FCN架构一直是分割研究工作的基本组成部分。

最近，随着自然语言处理（NLP）的成功，变换器（Transformer）[13]被引入作为循环神经网络（RNNs）[14]的替代品。Transformer包含一个新颖的自注意力设计，并可以并行处理各种标记。然后，基于Transformer设计，BERT [15]和GPT-3 [16]将模型参数扩展并使用大量未标记的文本信息进行预训练。它们在许多NLP任务上取得了强大的性能，加速了变换器进入视觉领域的发展。最近，研究人员将变换器应用于计算机视觉（CV）任务。早期方法[17]、[18]将自注意力层与CNN相结合。同时，一些工作[19]、[20]使用纯自注意力层替换卷积层。之后，两种显著的方法推动了CV任务的发展。一种是视觉Transformer（ViT）[21]，它是一种纯粹的Transformer，直接接收图像块序列来对整个图像进行分类。它在多个图像识别数据集上实现了最先进的性能。另一种是检测Transformer（DETR）[22]，它引入了对象查询的概念。每个对象查询表示一个实例。对象查询取代了之前检测框架中复杂的锚点设计，简化了检测和分割的流程。然后，随后的工作在各种视觉任务上采用改进的设计，包括表示学习[23]、[24]，对象检测[25]，分割[26]，低级图像处理[27]，视频理解[28]，3D场景理解[29]以及图像/视频生成[30]。在视觉分割方面，最近的最先进方法都是基于变换器架构的。与基于CNN的方法相比，大多数基于变换器的方法具有更简单的流程但更强大的性能。由于基于变换器的视觉模型的迅速兴起，有关视觉变换器的调查有很多[31]、[32]、[33]。然而，其中大多数主要关注通用变换器设计及其在几个特定视觉任务上的应用[34]、[35]、[36]。同时，还有关于基于深度学习的分割的先前调查[37]、[38]、[39]。然而，在我们所知范围内，尚无专门针对使用视觉变换器进行视觉分割或基于查询的对象检测的调查。我们相信，总结这些工作并持续关注这个不断发展的领域将对社区有益。贡献。在本综述中，我们系统地介绍了基于变换器的视觉分割方法的最近进展。我们从定义任务、数据集和基于CNN的方法开始，然后转向基于Transformer的方法，涵盖现有方法和未来工作方向。我们的调查从方法细节的更技术性的角度对现有的代表性工作进行了归类。特别是，对于主要的综述部分，我们首先在第3.1节中将现有方法的核心框架总结为一个元架构，这是DETR的扩展。通过改变元架构的组件，我们将现有方法分为六类，包括表示学习、解码器中的交互设计、优化对象查询、使用查询进行关联以及条件查询生成。此外，我们还研究了密切相关的具体设置，包括点云分割、基础模型调优、领域感知分割、数据/模型高效分割、类别不可知分割和跟踪以及医疗分割。还评估了在顶级会议和期刊上发表的有影响力的作品在几个广泛使用的细分基准上的表现。此外，还提供了以前基于CNN的模型和其他领域的相关文献的概述，如目标检测，目标跟踪，以及背景部分中的参考分割。范围。本综述将涵盖几个主流的分割任务，包括语义分割、实例分割、全景分割及其变体，如视频和点云分割。此外，我们在第4节中介绍了相关的下游设置。本文专注于基于transformer的方法，只回顾了一些与cnn密切相关的方法，以供参考。虽然有很多预印本或已出版的作品，但我们只收录最具代表性的作品。组织。调研的其余部分组织如下。总的来说，图1显示了我们调查的流程。在第2节中，首先介绍了问题定义、数据集和基于CNN的方法的背景知识。然后，回顾了第3节和第4节中关于基于transformer的分割方法的代表性论文。第5节对实验结果进行了比较。最后，我们在第六节提出了未来的研究方向，并在第七节总结了本文的研究。2. 方法综述****在本节中，基于类似DETR的元架构，回顾了基于transformer的分割的关键技术。如图3所示，元架构包含一个特征提取器、对象查询和transformer解码器。然后，以元体系结构为主线，综述了第3.2.1、3.2.2和3.2.3节中对元体系结构各个组成部分的修改或改进;最后，在3.2.4节和3.2.5节给出了基于这种元体系结构的几个具体应用。

在本节中，我们从五个方面回顾了基于transformer的分割方法。我们的目标是提取文献中使用的基本和常见的技术，而不是根据任务设置对文献进行分类。我们在表3中总结了研究方法、技术、相关任务和相关文献。大多数方法都基于3.1节中描述的元体系结构。我们将代表性作品的对比列于表4。

2.1 强表征

学习强大的特征表示总是可以得到更好的分割结果。以SS任务为例，SETR[202]是第一个用ViT骨干替换CNN骨干的。它在ADE20k数据集上取得了最先进的结果，没有花哨的东西。在vit之后，研究人员开始设计更好的视觉transformer。将相关工作分为3个方面:更好的视觉transformer设计、混合cnn /transformers/MLPs和自监督学习。

2.2 解码器中的交互设计

本节将回顾transformer解码器的设计。将解码器设计分为两组:一组用于改进图像分割中的交叉注意力设计，另一组用于视频分割中的时空交叉注意力设计。前者侧重于在原始的DETR中设计一个更好的解码器来改进原始的解码器。后者将基于查询的目标检测器和分割器扩展到视频领域，用于VOD、VIS和VPS，重点是建模时间一致性和关联。

3 优化对象查询

与Faster-RCNN[111]相比，DETR[22]需要更长的收敛时间。由于对象查询的重要作用，已有多种方法在加速训练计划和提高性能方面展开研究。根据对象查询的方法，将以下文献分为两方面:添加位置信息和采用额外监督。位置信息提供了对查询特征进行采样的线索，以加快训练速度。额外监督的重点是在DETR中设计特定的损失函数之外的默认损失函数。

使用查询进行关联

得益于查询表示的简单性，最近的一些工作将其作为关联工具来解决下游任务。主要有两种用法:一种用于实例级关联，另一种用于任务级关联。前者采用实例判别的思想，解决视频中的实例匹配问题，如联合分割和跟踪。后者采用查询链接特征的方式进行多任务学习。

条件返回查询融合

除了使用对象查询进行多任务预测外，一些工作还采用了跨模态和跨图像任务的条件查询设计。查询是基于任务输入的条件查询，解码器头使用这样的条件查询来获得相应的分割掩码。根据不同输入的来源，将这些工作分为两方面:语言特征和图像特征

4 相关的领域

在本节中，我们会回顾几个采用视觉transformer进行分割任务的相关领域。这些领域包括点云分割、域感知分割、标签和模型高效分割、类无关分割、跟踪和医疗分割。我们在表5中列出了一些有代表性的作品进行比较。

点云分割

包括语义级点云分割，实例级点云分割

调优基础模型

我们将这一部分分为两个方面:视觉适配器设计和开放式词汇学习。前者引入了新的方法，使预训练的大规模基础模型适应下游任务。后者试图借助预训练的视觉语言模型和在未见过的分割数据集上的零样本知识迁移来检测和分割未知物体。视觉适配器设计的核心思想是提取基础模型的知识，并设计更好的方法来适应下游设置。对于开放词汇表学习，核心思想是将预训练的VLM特征与当前检测器对齐，以实现新的类别分类。

领域感知分割

领域适应。无监督域适应(UDA)旨在在不获取目标标签的情况下，将用源(合成)域训练的网络适应到目标(真实)域[45][290]。UDA有两种不同的设置，包括语义分割和目标检测。在vit之前，之前的工作[291]，[292]主要设计域不变的表示学习策略。DAFormer[250]用先进的transformer骨干[128]取代了过时的骨干，并提出了三种训练策略，包括稀有类采样、物类ImageNet特征损失和学习率预热方法。它取得了新的最先进的结果，是UDA分割的强大基线。然后，HRDA[293]通过多分辨率训练方法改进了DAFormer，并使用各种作物来保留精细的分割细节和长程上下文。受MIM[24]启发，MIC[294]提出了掩码图像一致性，以学习目标域的空间上下文关系作为额外的线索。MIC通过一个师生框架来加强掩码目标图像和伪标签预测之间的一致性。它是一个插件模块，在各种UDA设置中进行验证。对于UDA上的检测transformer, SFA[251]发现CNN上的特征分布对齐带来的改进有限。相反，它提出了一个基于域查询的特征对齐和一个基于token的特征对齐模块来增强。特别是，通过引入领域查询来实现对齐，并在解码器上执行领域分类。同时，DA-DETR[295]提出了一种混合注意力模块(HAM)，其中包含一个坐标注意力模块和一个水平注意力模块以及transformer编码器。一个单一的域感知鉴别器监督HAM的输出。MTTrans[296]提出了一个教师-学生框架和一个共享对象查询策略。源域和目标域之间的图像和对象特征在局部、全局和实例级别进行对齐。

Multi-Dataset分割。多数据集分割的目标是学习不同领域上通用的分割模型。MSeg[297]通过重新标记几个现有的语义分割基准重新定义分类并对齐像素级注释。然后，接下来的工作试图通过各种方法来避免分类冲突。例如，Sentence-Seg[298]用向量值嵌入替换每个类标签。嵌入由语言模型[15]生成。为了进一步处理不灵活的one-hot通用分类法，LMSeg[252]使用可学习标记[268]扩展了这种嵌入，并为每个数据集提出了特定于数据集的增强。它将MaskFormer[154]中的段查询与SS和PS任务的类别嵌入动态对齐。同时，也有一些关于多数据集目标检测[299]、[300]和多数据集全景分割[301]的工作。特别是，Detection-Hub[300]建议根据每个数据集类别的语言嵌入调整对象查询。与之前对所有数据集的共享嵌入不同，它基于公共语言嵌入来学习每个数据集的语义偏差，以避免领域鸿沟。最近，TarVIS[302]为跨越多个基准的不同任务联合预训练一个视频分割模型，其中将Mask2Former扩展到视频领域，并采用统一的图像数据集预训练和视频微调。

标签和模型高效分割

类无关的分割和跟踪

医学图像分割

CNN在医学图像分析方面取得了里程碑式的进展。特别是U型架构和跳跃连接[335]，[336]被广泛应用于各种医学图像分割任务。随着ViTs的成功，最近的代表工作[260]，[337]将视觉transformer纳入U-Net架构并取得了更好的效果。TransUNet[260]合并了transformer和U-Net，其中transformer对标记化的图像块进行编码以构建全局上下文。然后解码器对编码后的特征进行上采样，再将其与高分辨率CNN特征图相结合以实现精确定位。Swin-Unet[337]设计了一个对称的Swin-like[23]解码器来恢复精细的细节。TransFuse[261]以并行的方式结合transformer和CNN，其中可以有效地联合捕获全局依赖关系和低级空间细节。UNETR[338]专注于3D输入医学图像，并设计了类似U-Net的架构。提取transformer中不同层的编码表示，并通过跳跃连接与解码器合并，以获得最终的3D掩码输出。

5 基准测试结果

在本节中，我们报告了最近基于transformer的视觉分割，并列出了之前讨论的算法的性能。对于每个审阅的领域，第5.1节和第5.3节选择了使用最广泛的数据集作为性能基准。我们使用相同的数据增强和特征提取器进一步对第5.2节中的几个代表性作品进行了基准测试。请注意，我们仅列出已发表的工作供参考。为简单起见，我们排除了一些关于表示学习的工作，只介绍了特定的分割方法。关于全面的方法比较，请参阅补充资料，提供了更详细的分析。

6 未来方向

通用统一的图像/视频分割。使用Transformer来统一不同的分割任务是一种趋势。最近的工作[26]，[153]，[162]，[163]，[246]使用基于查询的transformer使用一个架构执行不同的分割任务。一个可能的研究方向是在各种分割数据集上仅通过一个模型来统一图像和视频分割任务。这些通用模型可以在各种场景中实现通用的、鲁棒的分割，例如在各种场景中检测和分割稀有类有助于机器人做出更好的决策。这些将在一些应用中更加实用和强大，包括机器人导航和自动驾驶汽车。

多模态联合学习。由于缺乏归纳偏差，transformer在处理任何模式方面都是通用的。因此，使用Transformer来统一视觉和语言任务是一个大趋势。分割任务提供像素级线索，这也可能有利于相关的视觉语言任务，包括文本-图像检索和标题生成[343]。最近的工作[224]，[344]在一个通用的transformer架构中共同学习分割和视觉语言任务，这为结合跨多模态的分割学习提供了一个方向。

终身学习分割。现有的分割方法通常以具有一组预定义类别的封闭世界数据集为基准，即假设训练和测试样本具有相同的类别和事先已知的特征空间。然而，现实的场景通常是开放世界和非平稳的，其中新的类别可能连续出现[249]，[345]。例如，在自动驾驶汽车和医疗诊断中，可能会意外地发生未见过的情况。现有方法在现实和封闭世界场景中的性能和能力之间存在明显差距。因此，我们希望逐步不断地将新颖的概念融入到现有的分割模型知识库中，使模型具有终身学习的能力。

动态场景中的长视频分割。长视频带来了几个挑战。现有的视频分割方法旨在处理短视频输入，可能难以关联较长时间的实例。因此，新的方法必须纳入长期记忆设计，并在更长的时期内考虑实例的关联。其次，在长时间内保持分割掩码的一致性可能是困难的，特别是当实例在场景中移动时。这需要新的方法来合并时间一致性约束并随时间更新分割掩码。第三，长视频中可能会出现严重的遮挡，使准确分割所有实例具有挑战性。新的方法应该结合遮挡推理和检测来提高分割精度。最后，长视频输入往往涉及多种场景输入，给视频分割模型带来域鲁棒性挑战。新的方法必须结合域适应技术，以确保模型可以处理不同的场景输入。简而言之，解决这些挑战需要开发新的长视频分割模型，该模型结合了先进的内存设计、时间一致性约束、遮挡推理和检测技术。

生成式分割。随着更强大的生成模型的兴起，最近的工作[346]，[347]受扩散模型中更强的transformer解码器和高分辨率表示的启发，通过生成建模解决了图像分割问题[348]。采用生成式设计，避免了transformer解码器和对象查询设计，使整个框架更加简单。然而，这些生成模型通常会引入一个复杂训练管道。进一步的研究需要更简单的训练管道。

使用视觉推理进行分割。视觉推理[349]，[350]要求机器人理解场景中物体之间的联系，这种理解在运动规划中起着至关重要的作用。之前的研究探索了将分割结果作为视觉推理模型的输入，用于各种应用，如目标跟踪和场景理解。联合分割和视觉推理可能是一个很有前途的方向，在分割和关系分类方面都有可能实现互利。通过将视觉推理融入分割过程，研究人员可以利用推理的力量来提高分割精度，而分割可以为视觉推理提供更好的输入

7 结论

本综述对基于Transformer的视觉分割的最新进展进行了全面的回顾，据我们所知，这是第一次。这篇论文涵盖了基本的背景知识和transformer之前的工作概述，并总结了用于各种分割任务的120多个深度学习模型。最近的工作根据分割器的元架构分为六类。此外，回顾了5个密切相关的领域，并报告了几种代表性的分割方法在广泛使用的数据集上的结果。为了确保公平的比较，我们还在相同的设置下对几个代表性作品进行了重新基准测试。最后，指出了基于transformer的视觉分割的未来研究方向。

成为VIP会员查看完整内容