基础模型时代的图像分割研究综述

图像分割是计算机视觉领域中一个长期存在的挑战，多年来不断受到研究，经典算法如N-Cut、FCN和MaskFormer就是其中的代表。随着基础模型（Foundation Models, FMs）的兴起，现代分割方法进入了一个新纪元：要么通过适配基础模型（例如CLIP、Stable Diffusion、DINO）用于图像分割，要么开发专门的分割基础模型（如SAM）。这些方法不仅提供了卓越的分割性能，还展示了以往深度学习背景下从未见过的新分割能力。然而，当前的图像分割研究缺乏对这些进展所带来的独特特征、挑战和解决方案的详细分析。本综述旨在填补这一空白，通过对以基础模型驱动的图像分割的前沿研究进行深入回顾，我们探讨了两大基本研究方向——通用图像分割（即语义分割、实例分割、全景分割）和可提示的图像分割（即交互式分割、参考分割、少样本分割）——并详细描述了它们各自的任务设置、背景概念和主要挑战。此外，我们还深入分析了从CLIP、Stable Diffusion和DINO等基础模型中涌现的分割知识。本综述涵盖了300多种分割方法的详尽概述，以全面反映当前的研究努力。最后，我们讨论了未解问题和未来研究的潜在方向。我们希望这篇全新、全面且系统的综述能推动先进图像分割系统的发展。

图像分割一直是计算机视觉领域中的一个重要且具有挑战性的研究方向，其目标是将像素划分为不同的组别。这项任务是实现更高阶目标的初始步骤，包括物理场景理解、视觉常识推理、社交能力感知，并且在自动驾驶、医学图像分析、自动监控和图像编辑等领域有着广泛的应用。多年来，图像分割吸引了大量的关注，催生了大量的算法，从传统的非深度学习方法如阈值化[1]、直方图模式搜索[3]、区域生长与合并[5]、空间聚类[7]、能量扩散[8]、超像素[9]、条件随机场与马尔可夫随机场[10]，到更先进的深度学习方法，例如基于FCN的[11]–[20]，尤其是DeepLab家族[17]–[20]，基于RNN的[21]，基于Transformer的[22]–[28]，以及R-CNN家族[29]–[31]。这些方法在语义分割、实例分割和全景分割等关键领域表现出显著的性能和鲁棒性。然而，图像分割的探索并未止步于这些进展。

基础模型（Foundation Models, FMs）[32]在近年来作为变革性技术出现，重新塑造了我们对人工智能（AI）核心领域的理解，包括自然语言处理[33]、计算机视觉[34]及其他多个跨学科领域[35]–[37]。著名的例子包括大型语言模型（LLMs）如GPT-3 [38]和GPT-4 [39]，多模态大型语言模型（MLLMs）如Flamingo [40]和Gemini [41]，以及扩散模型（DMs）如Sora [42]和Stable Diffusion (SD) [43]。这些模型因其庞大的规模和复杂性而独树一帜，展现了处理多种复杂任务的突现能力[44]、[45]，并具有显著的效率和效果。同时，它们也解锁了新的可能性，如生成推理链[46]、在对话场景中提供类人回应[38]、生成逼真的视频[42]和合成新颖的程序[47]。GPT-4和Sora的出现激发了AI社区对实现人工通用智能（AGI）[48]的巨大兴趣。

在基础模型主导的时代，图像分割经历了显著的演变，展现出前所未有的特征。为了突出我们研究的动机，我们强调了一些表明这一转变的特征：

♠ 基础模型技术促成了分割通用模型的出现。与传统框架（如FCN、Mask R-CNN）不同，当代分割模型已具备可提示性，即根据手工设计的提示生成掩码（类似于LLMs中的答案），指定图像中要分割的内容。这种类似LLM的可提示接口大大增强了分割器的任务普适性，使其能够快速适应各种现有和新兴的分割任务，采用零样本（如SAM [49]、SEEM [50]）或少样本（如SegGPT [51]）方式。值得注意的是，这些可提示模型与早期的通用模型[22]–[25]显著不同，后者仅限于一组固定的预定任务，如联合语义分割、实例分割和全景分割，且具有封闭词汇。

♥ 训练无关的分割最近成为一个新兴的研究领域[52]–[57]。其目标是从预训练的基础模型中提取分割知识，标志着从传统学习范式（如监督学习、半监督学习、弱监督学习和自监督学习）的转变。最近的研究表明，即使CLIP、Stable Diffusion或DINO/DINOv2等模型最初并非为分割而设计，分割掩码也可以轻松从这些模型的注意力图或内部表示中提取出来。

♣ 将大型语言模型（LLMs）整合到分割系统中，以利用其推理能力和世界知识，已成为一个显著趋势[58]–[61]。这些由LLM驱动的分割器能够阅读、聆听，甚至进行推理，将现实世界中抽象的语言查询落实到特定的像素区域。虽然之前的研究已经在参考分割[62]等任务中探索了类似的能力，但这些方法仅限于处理诸如“领跑者”这样的基本查询。相比之下，由LLM驱动的分割器可以熟练处理诸如“谁会赢得比赛？”这样的更复杂查询。这一能力代表了向开发更智能视觉系统迈出的重要一步。

♦ 生成模型，特别是文本到图像的扩散模型，越来越受到最近图像分割研究的关注。有研究表明，扩散模型在文本到图像生成过程中隐式地学习了有意义的对象分组和语义[63]，并作为强大的无监督表示学习器发挥作用。这激励了一系列研究直接将预训练扩散模型的潜在代码解码为分割掩码，以标签高效或完全无监督的方式进行[63]、[64]。此外，一些努力将扩散模型固有的去噪扩散过程扩展到分割中，通过从图像条件化的掩码生成角度接近图像分割[65]–[67]。

鉴于这些特征，我们发现现有的大多数领域综述[68]–[70]已显得过时——最新的一篇综述[70]发表于2021年，并仅关注于语义分割和实例分割。这导致了对最近基础模型驱动的分割方法缺乏全面的把握。

我们的贡献。为填补这一空白，我们提供了一个详尽且及时的综述，探讨基础模型如何改变图像分割领域。这篇综述是首次对基于著名基础模型的最近图像分割方法进行的全面探索，如CLIP [71]、Stable Diffusion [43]、DINO [56]/DINOv2 [57]、SAM [49]和LLMs/MLLMs [72]。它涵盖了该领域的广泛内容，并深入探讨了各个方法的细微差别，从而为读者提供对这一主题的深入和最新的理解。除此之外，我们还阐明了未解的问题和未来的研究方向，以照亮这一关键领域的发展道路。

相关综述及其区别。在过去十年中，许多综述从不同角度研究了图像分割。例如，2015年的[73]综述了基于区域和边界的分割方法。随着深度学习时代的到来，一系列研究[70]、[74]–[78]总结了在语义分割、实例分割和全景分割等通用分割任务中的进展。最近的一项研究[79]关注于开放词汇分割这一特定任务。其他研究则深入探讨了图像分割的重要方面，如评估协议[80]或损失函数[81]。此外，还存在一些针对特定领域的分割技术的综述，如视频[82]、医学影像[83]、[84]。

随着基础模型的加速演进，一系列综述已经阐明了LLMs [33]、MLLMs [72]、DMs [85]等的基本原理和开创性工作。然而，这些研究中显然缺少对基础模型在推动图像分割进展方面作用的讨论。与我们的研究最相关的综述是[86]，它对与SAM [49]相关的最新发展进行了广泛的回顾。SAM在分割领域做出了开创性贡献，使[86]成为一份宝贵的资源。然而，在基础模型的更广泛背景下，SAM只是众多模型中的一个；因此，[86]的范围在涵盖分割领域的整体进展方面仍然有限。

与之前的综述不同，我们的工作专注于基础模型对图像分割的贡献，填补了当前研究领域中的空白。我们记录了最新的技术，突出了主要趋势，并展望了未来的研究方向，这将有助于研究人员跟踪图像分割领域的进展并加速这一领域的发展。

综述组织。本文的剩余部分结构如下。第2节介绍了图像分割和基础模型的基本背景。第3节强调了从现有基础模型中涌现的分割知识。第4节和第5节回顾了过去三年中基于基础模型的最重要的图像分割方法。第6节提出了未解决的问题和未来方向。第7节对本文进行了总结。

基于基础模型的地理信息系统（GIS）

本节提供了关于基于基础模型（Foundation Model, FM）的地理信息系统（GIS）中的语义分割（§4.1）、实例分割（§4.2）和全景分割（§4.3）的最新进展的全面回顾。我们的讨论从技术角度出发，阐明了基本概念，并突出基础模型在GIS中的作用。

2.1 语义分割

**2.1.1 基于CLIP的解决方案

如何将CLIP中预训练的知识转移到分割任务中？这个问题促使了大量研究基于CLIP进行图像分割。然而，由于CLIP中的图像级别训练任务与图像分割中的像素级别预测任务之间存在固有的粒度差异，导致该任务极具挑战性。常见的解决方案有： * 无训练语义分割。如§3.1中讨论的那样，通过对自注意力模块进行微小修改，可以从CLIP中派生出分割掩码。在此基础上，许多方法[52], [53], [137]–[139]通过利用CLIP文本编码器作为分类器来确定每个掩码的类别，从而实现语义分割。整个过程无需额外的训练或微调。 * CLIP微调。遵循流行的预训练-微调范式，许多方法使用分割数据对CLIP进行微调。它们可以分为全微调和参数高效微调方法。全微调方法需要调整CLIP的整个视觉或文本编码器。DenseCLIP [88]是这类方法的先驱，通过解决像素-文本匹配任务来优化CLIP的视觉编码器。PPL [152]通过一种概率框架扩展了DenseCLIP，以基于视觉线索学习更准确的文本描述。尽管这些方法表现出良好的效果，但往往会破坏CLIP中的视觉-语言关联，导致开放词汇能力的严重损失。为了缓解这一问题，CATSeg [153]引入了基于成本聚合的框架，即使在完全微调后也能保持CLIP的零样本能力。OTSeg [154]通过利用多个文本提示的集成并引入多提示sinkhorn注意力来改善多模态对齐。然而，这些方法通常需要大量密集注释的训练图像。相反，ZegCLIP [155]、LDVC [156]和ZegOT [157]使用参数高效的提示调优技术来转移CLIP。为了防止过拟合到已见类别，它们都学习图像特定的文本嵌入，以实现更准确的像素-文本对齐。SemiVL [158]采用部分调优策略，仅调优自注意力层的参数。SAN [159]通过轻量级适配器将CLIP图像编码器适配到分割中，并通过预测应用于CLIP深层的注意力偏差来解耦掩码提案和分类阶段。 * CLIP作为零样本分类器。除了模型微调，许多研究直接将预训练的CLIP用作分类器，能够保持CLIP的零样本迁移能力。这些方法可以分为两大类：掩码分类和像素分类。掩码分类方法[160]–[168]通常遵循两阶段范式，首先提取类别无关的掩码提案，然后使用预训练的CLIP对提案进行分类。早期的研究[160], [161]需要一个独立的、与CLIP无关的模型来生成提案，而最近的方法[162]–[166]倾向于在统一框架内整合掩码生成和分类。这些方法在训练过程中保持CLIP冻结状态，但原生CLIP对不同的掩码提案不敏感，限制了分类性能。OVSeg [167]和MAFT [168]通过在训练过程中微调CLIP，使其更具掩码感知能力来解决这个问题。 * 从文本监督中涌现语义分割。受CLIP启发，一系列研究尝试从纯文本监督中学习可迁移的语义分割模型。GroupViT [174]和SegCLIP [175]通过分组模块增强了原始的ViT，使图像像素逐渐分组为段落。为了应对其粒度不一致问题，SGP [176]进一步挖掘了不可学习的原型知识[146]作为显式监督，以改善分组结果。与这些需要定制图像编码器的工作不同，[177]避免了修改CLIP的架构，而是通过稀疏对比图像-文本特征的最大响应来优化对齐。TagAlign [178]也专注于优化部分，并引入细粒度属性作为监督信号，以实现密集的图像-文本对齐。 * 知识蒸馏（KD）。知识蒸馏是一种简单但高效的方法，用于转移基础模型的能力，在自然语言处理和计算机视觉领域取得了许多成功。在语义分割领域，ZeroSeg [180]和CLIP-ZSS [181]将CLIP的视觉编码器中的语义知识蒸馏到分割模型中。此外，许多方法基于自蒸馏，通过将局部密集特征与对应图像块的视觉特征对齐来进行自我学习[182]，或基于局部信息学习全局语义[183]。此外，CLIP-DINOiser [184]将DINO视为教师，引导CLIP学习对分割友好的DINO风格特征。

**2.1.2 基于DM的解决方案

除了判别模型CLIP外，扩展生成模型（如扩散模型）从生成任务到语义分割领域的应用也越来越受到关注。从技术角度来看，当前的研究可以分为以下几类： * 无训练语义分割。基于§3.2中的技术，[55], [141], [142]为每个候选类别生成一个掩码mCLS，并通过识别置信度最高的类别为每个像素分配一个类别。FreeSeg-Diff [89]遵循两阶段范式，即将注意力图聚类为类别无关的掩码，然后由CLIP对每个掩码进行分类。这些方法受到文本提示标记的限制，要求每个语义类别与提示词相关联，这并不总是有效。为了解决这个问题，OVAM [143]引入了额外的属性提示，使得能够生成与开放词汇描述的语义分割掩码，而不论用于图像生成的文本提示中的词汇。此外，OVDiff [145]从原型学习的角度[146]、[147]出发，利用T2I-DMs构建一组类别原型，作为分割的最近邻分类器。DiffSeg [185]引入了迭代合并过程，将SD中的自注意力图合并为有效的分割掩码。与上述方法不同，FreeDA [54]利用SD构建了一个大型视觉原型池，并为每个像素检索到最相似的原型以进行分割预测。 * 扩散特征用于语义分割。除了注意力图之外，利用DMs的潜在表示进行语义分割也越来越受欢迎。类似[63], [186]的研究从无文本的DMs中提取内部嵌入用于分割，但它们仅限于封闭词汇设置。相比之下，大多数方法[115], [187], [188]则利用T2I-DMs（主要是SD）来挖掘语义表示。LD-ZNet [115]显示：1）与RGB图像等其他形式相比，LDMs的潜在空间是语义分割的更好输入表示，2）去噪UNet的中间层（即{6,7,8,9,10}）比编码器的早期或后期模块包含更多语义信息（与[189]中的观察一致）。此外，对于T2I-DMs，文本提示在特征提取中起着关键作用，因为它作为语义合成的指导。VPD [187]采用了一种直接的方法，使用数据集中的类别名称形成SD的文本上下文，其中类嵌入从CLIP的文本编码器中提取（提示“a photo of [CLS]”）。TADP [188]和Vermouth [190]发现，自动生成的标题作为图像对齐的文本提示，有助于提取更有语义意义的视觉特征。相比之下，MetaPrompt [191]通过一组可学习的嵌入（称为元提示）将SD集成，用于在循环特征优化过程中激活任务相关特征。此外，适当的提示使潜在特征在未见领域表现出卓越的泛化性能。 * 语义分割作为去噪扩散。远离这些主流领域，一些研究[65], [192]–[194]将语义分割重新定义为去噪扩散过程。它们学习一种迭代去噪过程，从随机噪声zt ∼ N (0, 1)中预测真实地图z0，并以从图像编码器派生的对应视觉特征为条件。基于这一见解，SegRefiner [195]考虑了一种离散扩散公式，用于优化从现有分割模型派生的粗略掩码。此外，Peekaboo [90]是一种有趣的方法，将分割视为一个前景α掩码优化问题，通过在推理过程中优化α掩码，以使其在图像和文本提示方面收敛到最佳分割。 * T2I-DMs作为语义分割数据合成器。收集和注释具有像素级标签的图像耗时且费力，因此对语义分割来说始终是一个挑战。随着AIGC的最新进展，许多研究[98], [99], [141], [196]探索了T2I-DMs构建大规模分割数据集（包括合成图像和相关的掩码注释）的潜力，这可以作为训练任何现有语义分割模型的更具成本效益的数据源。这一思想也被应用于医学图像分割等专业领域[197]。与直接生成合成掩码不同，一些研究[198]–[200]利用T2I-DMs在少量标注图像的基础上进行数据增强。

**4.1.3 基于DINO的解决方案

通过直接分组进行无监督分割。鉴于DINO中分割特性的涌现，许多方法通过例如k-means [151]或基于空间局部亲和力的图分割[148], [201], [202]直接将DINO特征分组为不同区域。尽管这些方法无需训练，但它们在发现显著对象方面有限，且无法生成多个语义区域的掩码——这是语义分割的关键。 * 通过自训练进行无监督语义分割。后续工作探讨了自训练方法以应对上述限制。它们倾向于在从DINO特征自动发现的伪标签上训练分割模型。伪标签通常是以自下而上的方式获得的，但策略因方法而异。DeepSpectral [91]对密集DINO特征执行谱聚类，将每个图像过度聚类为段落，然后聚类这些段落的DINO表示以确定伪分割标签。这些段落代表对象部分，可以与过度聚类和社区检测相结合，以提高伪掩码的质量[203]。COMUS [150]结合无监督显著性掩码和DINO特征聚类，生成初始伪掩码，这些伪掩码被用于训练语义分割网络，以在具有多个对象的图像上自引导系统。值得注意的是，STEGO [92]发现DINO的特征与真实语义标签的相关模式大体一致，因此提出了一种新颖的对比损失，将无监督的DINO特征提炼为紧凑的语义簇。此外，DepthG [204]将深度图形式的空间信息纳入STEGO训练过程中；HP [205]提出了更有效的隐藏正样本，以增强对比学习；EAGLE [206]从DINO特征中提取对象级语义和结构线索，以引导模型学习对象感知表示。

**2.1.4 基于SAM的解决方案

SAM用于弱监督语义分割。虽然SAM不具备语义感知能力，但它具有广泛的和显著的分割能力，这在弱监督情况下广泛用于提高分割质量。[207]使用SAM进行分割掩码的后处理，而[208]利用SAM进行零样本推理。S2C [93]在特征和logit级别都结合了SAM。它基于SAM的段落执行原型对比学习，并从CAMs中提取显著点以提示SAM。

**2.1.5 基于FMs的语义分割的组合

基础模型具备独特的能力，这些能力源自其预训练目标。例如，CLIP在语义理解方面表现出色，而SAM和DINO则擅长空间理解。因此，许多方法将这些基础模型结合成一个有凝聚力的系统，吸收它们的专长。它们中的一些是在零指导下构建的[89], [209], [210]。这些方法利用DINO或SD来识别类别无关的段落，将它们映射到CLIP的潜在空间，并通过图像标题模型如BLIP将每个段落的嵌入转换为一个单词（即类别名称）。另一个例子是SAM-CLIP [94]，通过多任务蒸馏将SAM和CLIP结合成一个模型。最近，RIM [95]在三个VFMs的协作下构建了一个无需训练的框架。具体来说，它首先基于SD和SAM构建类别特定的参考特征，然后通过关系感知排序将这些特征与从SAM和DINO派生的区域特征进行匹配。

2.2 实例分割

**2.2.1 基于CLIP的解决方案

CLIP作为零样本实例分类器。CLIP在实现开放词汇实例分割中发挥了重要作用。[96], [104], [211]利用冻结的CLIP文本编码器作为实例掩码提案的分类器。OPSNet [97]利用CLIP的视觉和文本嵌入来丰富实例特征，这些特征随后由CLIP文本编码器进行分类。[212]引入了一个生成模型，以合成来自CLIP文本嵌入的未见特征，从而弥合语义-视觉空间并解决未见训练数据不足的挑战。[213]提出了一个动态分类器，将CLIP文本嵌入投影到图像特定的视觉原型上，有效减轻了对已见类别的偏见以及多模态领域的差距。

**2.2.2 基于DM的解决方案

T2I-DMs作为实例分割数据合成器。DMs在实例分割中通过促进生成具有准确标签的大规模训练数据集发挥了关键作用。MosaicFusion [98]引入了一个无需训练的流程，能够同时通过T2I-DMs生成合成图像，并通过对交叉注意力图的聚合生成相应的掩码。[214]采用了剪切和粘贴的方式进行数据增强，前景对象和背景图像均由DMs生成。DatasetDM [99]提出了一种半监督方法，该方法首先学习一个感知解码器，以基于少量标注数据对图像进行注释，然后生成用于各种密集预测任务的图像和注释。

**2.2.3 基于DINO的解决方案

无监督实例分割。一些方法[100], [101], [149], [215]试图放大DINO的内在定位能力，以在没有任何人工标签的情况下训练实例级分割模型。它们通常采用两阶段的发现和学习过程：通过递归应用归一化切割[100]等方法从DINO特征中发现多个对象掩码，然后利用这些掩码作为伪标签训练实例分割模型。

**2.2.4 基于FMs的实例分割的组合

X-Paste [102]重新审视了传统的数据增强策略，即Copy-Paste，旨在大规模获取具有高质量掩码的对象实例，用于无限类别。它充分利用基础模型准备图像，即使用SD生成图像，并使用CLIP过滤Web检索的图像。图像中的实例通过现成的分割器提取，并与背景图像组合以创建训练样本。DiverGen [216]通过更专注于增强类别多样性来改进X-Paste。它利用SAM更准确地提取实例掩码。与这些研究不同，Zip [217]结合CLIP和SAM实现了无需训练的实例分割。它观察到对CLIP中间层特征的聚类敏锐地关注对象边界。因此，它首先对CLIP特征进行聚类以提取段落，然后根据边界和语义线索过滤它们，最后提示SAM生成实例掩码。此外，通过将实例的边界框作为提示输入，可以轻松地将SAM直接转换为实例分割模型[103], [218]，这些边界框可以通过对象检测器获取，如Faster R-CNN [30], Grounding DINO [219]。

2.3 全景分割

**2.3.1 基于CLIP的解决方案

CLIP作为零样本掩码分类器。最近的许多全景分割方法[96], [97], [104], [105], [211], [212], [220], [221]都遵循MaskFormer [22] / Mask2Former [23]引入的基于查询的掩码分类框架。它们首先生成类别无关的掩码提案，然后利用CLIP对提案进行分类，从而赋予MaskFormer和Mask2Former开放词汇分割能力。MaskCLIP [104]引入了一组掩码类别标记，以更高效地提取掩码表示。MasQCLIP [96]通过对掩码类别标记应用附加的投影来增强MaskCLIP，以获得最佳的注意力权重。OPSNet [97]基于CLIP视觉编码器学习更具普适性的掩码表示，随后用于增强查询嵌入。UnpairSeg [105]提出了一个弱监督框架，允许模型从更便宜的图像-文本对中受益。它学习了一个特征适配器，用于对齐分别从CLIP的视觉和语言编码器中提取的掩码表示。尽管取得了进展，这些方法仍然需要为每个任务训练单独的模型，以实现最佳性能。Freeseg [221]和DaTaSeg [222]设计了全能型模型，使用相同的架构和推理参数在开放词汇语义、实例和全景分割问题中表现出色。OMG-Seg [223]引入了一个统一的查询表示，能够处理不同数据集上的十个分割任务。

**2.3.2 基于DM的解决方案

扩散特征用于全景分割。ODISE [106]探索了T2I DMs中的内部表示，以实现开放词汇全景分割。它遵循了Mask2Former的架构设计，但利用从预训练的扩散UNet中提取的视觉特征来预测二进制掩码提案和相关的掩码表示。这些提案最终通过CLIP作为零样本分类器进行识别。

全景分割作为去噪扩散。Pix2Seq-D [107]将全景分割定义为基于像素的离散数据生成问题，使用Bit Diffusion生成模型[224]。DFormer [67]引入了一种基于扩散的掩码分类方案，该方案学习从噪声掩码输入生成掩码特征和注意力掩码。此外，LDMSeg [225]通过首先将分割标签压缩为紧凑的潜在代码，然后按照扩散调度去噪这些潜在代码，基于SD解决了生成式分割问题。

**2.3.3 基于DINO的解决方案

无监督全景分割。基于STEGO [92]在语义分割和CutLER [100]在实例分割中的成功，U2Seg [108]自动识别图像中的“事物”和“背景”，以创建伪标签，这些伪标签随后用于训练全景分割模型，如Panoptic Cascade Mask R-CNN [226]。此外，[227]遵循[228]的自下而上架构，分别预测语义和边界图，后者再融合以生成全景分割掩码。

**2.3.4 基于SAM的解决方案

向语义感知SAM迈进。虽然SAM展示了强大的零样本性能，但它生成的分割缺乏语义意义。这推动了许多研究努力，例如Semantic-SAM [109], SEEM [50]，以增强SAM的语义感知能力。除了用于交互式分割的视觉提示外，这些模型还学习了通用对象查询，以在语义和实例级别实现通用分割。此外，这些模型通常在多个具有语义注释的数据集（如COCO [229], ADE20K [230], PASCAL VOC [231]）的组合上进行训练。

基于基础模型的交互式分割

**3.1 交互式分割

3.1.1 基于SAM的解决方案作为一个通用的交互式分割系统，SAM自然而然地成为研究人员构建先进交互式分割框架的首选。

多粒度交互式分割。现有的大多数交互式分割方法基于用户输入确定单一的分割掩码，而忽略了空间模糊性。相比之下，SAM引入了多粒度交互式分割流程，即针对每次用户交互，所需的分割区域可能是包含不同部分的对象概念。为了提高分割质量，HQ-SAM [218]提出了一个轻量级的高质量输出令牌，以替代原始SAM的输出令牌。经过在44,000个高度精确的掩码上训练，HQ-SAM显著提升了SAM的掩码预测质量。由于SAM是类别无关的，一系列工作[232], [233]通过将查询分割区域与CLIP的相应文本表示对齐来调整SAM，而[109]设计了一个支持使用标注的SAM数据进行多粒度分割的SAM类框架。尽管这些多粒度交互式分割方法减轻了空间模糊性，但它们产生了过多的输出冗余和有限的可扩展性。为了解决这一问题，GraCo [110]探讨了粒度可控的交互式分割，允许对预测粒度进行精确控制以解决模糊性。

SAM在医学图像交互式分割中的应用。交互式分割在医学领域至关重要，如精确分割病变区域或减少医学数据标注中的人工操作。与自然图像分割不同，医学图像分割由于结构复杂性、对比度低或跨序列变异性等内在问题而面临更大的挑战。最近，一些研究[235]–[237]探索了SAM在医学成像中的零样本交互式分割能力。它们涵盖了不同医学成像模式下的多种解剖和病理目标，包括CT [238]、MRI [239]、病理图像[240]、内窥镜图像[94]。尽管这些研究表明，在某些模式下，SAM在识别定义明确的目标方面表现出与最先进方法相当的效果，但在目标边界模糊、对比度低、尺寸小、形状不规则的更具挑战性的情况下，SAM表现不佳或完全失败。这表明在没有进行微调或重新训练的情况下，直接将SAM应用于以前未见过的具有挑战性的医学图像分割可能会导致次优的性能。为了增强SAM在医学图像上的表现，一些方法提出在医学图像上微调SAM。MedSAM [111]整理了一个包含超过一百万对医学图像-掩码对的11种模式的大规模数据集，用于直接微调SAM。相比之下，其他方法探讨了参数高效的微调策略。SAMed [241]将LoRA模块应用于预训练的SAM图像编码器。SAMFE [242]发现将LoRA应用于掩码解码器在少量样本情况下表现优越。SAM-Med2D [236]通过集成可学习的适配层增强了图像编码器。MedSA [243]通过引入空间-深度转置适应了SAM到体积医学图像，利用分叉的注意力机制在一个分支中捕捉空间相关性，在另一个分支中捕捉深度相关性。3DSAM-Adapter [244]通过精心设计的SAM架构修改，引入了从2D到3D的整体适应方法。

**5.2 指代分割

5.2.1 基于CLIP的解决方案指代分割旨在通过自然语言表达来分割所指对象。CLIP中的多模态知识被广泛应用于解决这一多模态任务。

无训练指代分割。ZS-RS [112]代表了一种无训练的指代图像分割方法，该方法利用了CLIP中的跨模态知识。它首先使用现成的掩码生成器生成实例级掩码，然后从CLIP中提取掩码和文本的局部-全局特征，最后基于跨模态特征相似性识别所需的掩码。TAS [245]采用了与ZS-RS类似的流程，但计算了更细粒度的区域-文本匹配分数以选择正确的掩码。

多模态知识转移。许多研究致力于将CLIP中的多模态知识从图像级别转移到像素级别。一种常见的思路[113], [246]–[253]是引入一个任务解码器来融合CLIP的图像和文本特征，并通过文本到像素的对比学习[246]进行训练。除了任务解码器之外，ETRIS [247]和RISCLIP [113]整合了一个Bridger模块，以在每个编码器阶段促进视觉-语言交互。EAVL [249]基于输入图像和语言学习了一组卷积核，并在任务解码器的输出上进行卷积以预测分割掩码。UniRES [250]探索了多粒度指代分割，将对象级和部分级的定位任务统一起来。TP-SIS [252]将CLIP中的多模态知识转移到手术器械的指代分割中。

弱监督指代分割。为了适应现实世界的情况，一些研究探索了弱监督指代分割以减少像素标注的成本。TSEG [254]使用CLIP计算patch-文本相似性，并在训练期间通过多标签patch分配机制引导分类目标。TRIS [255]提出了一个两阶段的流程，首先从图像-文本注意力图中提取粗略的像素级图，然后用这些图训练一个掩码解码器。 5.2.2 基于DM的解决方案无训练指代分割。一些研究[90], [114]发现，SD在生成过程中可以隐式地作为一个指代分割器。Peekaboo [90]将分割公式化为一个前景α掩码优化问题，要求一个细粒度的分割图能产生高保真的图像生成过程。通过这种方式，最小化掩码涉及的噪声与目标噪声之间的差异将提供更好的文本对齐像素表示。Ref-diff [114]首先从生成模型中生成一组对象提案，然后根据提案-文本相似性确定所需的掩码。

用于指代分割的扩散特征。在有条件的文本指导下，模态交织的注意力图（参见§3.2）可以直观地作为初始的视觉密集表示，用于生成最终的分割掩码。VPD [187]引入了一个任务特定的解码器来处理从交叉注意力图和U-Net中的多级特征图融合而来的编码特征。同时，LD-ZNet [115]将注意力特征注入到一个掩码解码器中，以生成更好文本对齐的像素级掩码。除了基于注意力的利用之外，[256], [257]直接将扩散U-Net的每个中间层的输出以及文本嵌入输入到掩码解码器中，以生成最终预测。 3.2.3 基于LLMs/MLLMs的解决方案大型语言模型（LLMs/MLLMs）的成功展示了惊人的推理能力，能够回答复杂的问题，从而为实现新的像素推理和理解能力带来了新可能性。特别是，LISA [59]研究了一种新的分割任务，称为推理分割。与传统的指代分割不同，这种设置下的分割器旨在基于涉及复杂推理的隐含查询文本分割对象。值得注意的是，查询文本不限于直接参考（如“领跑者”），而是涉及更复杂推理或世界知识的描述（如“谁会赢得比赛？”）。LISA采用LLaVA [258]基于输入图像、文本查询和[seg]标记生成文本响应。然后，将自定义的[seg]标记的嵌入通过SAM解码器解码为分割掩码。随后，LISA++ [259]提升了LISA的能力，使其能够区分同一类别中的个体，并在多轮对话中实现更自然的交互。基于这些工作，许多研究致力于提高推理能力和分割准确性。LLM-Seg [260]提出使用SAM生成一组掩码提案，从中选择最适合的答案作为最终的分割预测。NextChat [261]增加了一个[trigger]标记，描绘对象框的坐标，作为MLLM的补充输入，以帮助生成更好的掩码。类似地，GSVA [262]引入了一个拒绝标记[rej]，以缓解指令中引用的对象不存在于图像中的情况，避免产生假阳性预测。除了功能标记的整合外，[263], [264]提出使用多样化的文本描述，如对象属性和部分，以增强对象-文本连接，从而获得准确的推理结果。关于推理成本，PixelLLM [60]引入了一个轻量级解码器，以减少推理过程中的计算成本。Osprey [265]通过将细粒度掩码区域纳入语言指令，扩展了MLLM的能力，提供了出色的像素级视觉理解能力。3.2.4 基于FMs的指代分割的组合为了增强文本表示以实现像素级理解，一些方法使用LLMs作为文本编码器，以获得改进的文本嵌入用于模态融合。特别是，BERT [266]由于其简单性和实用性，几乎是工作[254], [267]–[277]中的首选。大多数方法设计了一个融合模块，用于连接视觉编码器和BERT之间的特征。此外，一些工作[261], [278], [279]将LLM视为多模态统一处理器，使用Vicuna [280]将图像和文本映射到统一的特征空间，然后生成分割输出。借助GPT系列模型[39]的强大对话能力，一些研究[281]–[283]采用ChatGPT重写具有丰富语义的描述，并在指代分割模型训练中鼓励更细粒度的图像-文本交互。除了使用LLMs进行文本增强，SAM [49]也被广泛选择为指代分割提供丰富的分割先验。[284]提出了一个提示驱动框架，通过提示机制将CLIP和SAM在端到端的方式下连接起来。[285]专注于基于简单而有效的双编码器设计构建指代分割器，即分别采用SAM和LLM来编码图像和文本模式，然后融合多模态特征进行分割预测。这样一个没有繁琐装饰的SAM和LLM的组合可以很容易地扩展到MLLM的应用中。因此，[116], [117]提出结合CLIP与SAM以改善多模态融合。具体来说，F-LMM [116]提出使用CLIP编码视觉特征，然后通过SAM解码为预测的分割图。PPT [117]首先利用CLIP的注意力图计算峰值区域，作为显式的点提示，直接用于分割查询目标。

**3.3 少样本分割

3.3.1 基于CLIP的解决方案用于少样本分割的CLIP特征。采用CLIP从支持图像中提取有效的视觉关联性来帮助查询图像的分割推理，已形成解决FSS的主流流程，这可以根据CLIP导向视觉特征的使用方式分为两类。第一类[118], [286]–[290]依赖于建模支持-查询图像的特征关系，以显式地分割查询图像。WinCLIP [118]聚合参考和查询图像的多尺度CLIP视觉特征，以获得用于像素级预测的增强支持-查询关联性得分图。[286]–[289]进一步利用查询和支持的自注意力图优化得分图。[290]通过设计适当的文本提示引入支持图像的前景-背景关联性。另一类工作[119], [251], [291]则聚焦于通过支持图像生成的原型调节的查询图像分割，这些工作通常涉及一些度量函数，如余弦相似性，用于查询-原型距离计算。RD-FSS [119]提出利用CLIP文本编码器的类别描述作为文本原型，然后与视觉特征相关联，以交叉注意力的方式进行密集预测。此外，PartSeg [291]聚合视觉和文本原型以帮助生成改进的查询图像像素级表示。这里的视觉原型是通过参考分割掩码相应地汇聚CLIP视觉特征获得的。为了进一步增强原型表示，[251]使用CLIP从掩码支持图像生成视觉原型，其中只保留了感兴趣的对象。

3.3.2 基于DM的解决方案用于少样本分割的扩散特征。DMs的内部表示对于少样本分割很有用。具体而言，[292]直接利用特定时间步骤的潜在扩散特征作为支持图像的表示，并通过掩码解码器与原始图像一起解码。相反，DifFSS [120]提出使用DMs合成更多支持风格的图像-掩码对。基于不变的掩码，生成的支持图像应包含相同掩码覆盖的对象，但具有不同的背景，从而丰富支持模式以实现更好的查询分割。

作为去噪扩散的少样本分割。一些研究[121], [293]通过解决去噪扩散过程来处理少样本分割。它们通过微调SD来显式生成查询图像的分割掩码，主要区别在于微调过程中应用的条件。MaskDiff [293]使用查询图像和支持掩码图像作为条件，而SegICL [121]仅使用支持/查询掩码作为条件。 3.3.3 基于DINO的解决方案

用于少样本分割的DINO特征。有一些工作[122], [294]–[296]利用DINO/DINOv2中的潜在表示来增强查询和支持特征。[294]直接使用DINOv2对查询和支持图像进行编码，显示DINOv2优于其他基础模型，如SAM和CLIP。在此基础上，SPINO [122]采用DINOv2进行少样本全景分割。[295], [296]进一步通过DINO中的标记嵌入的交叉和自注意力挖掘出查询-支持关联性，从而实现更具支持意识的分割。 3.3.4 基于SAM的解决方案

为SAM生成提示。在提供的支持图像集的基础上，一系列工作[123], [297]–[300]专注于为SAM生成合适的提示，以分割查询图像中的目标。值得注意的是，它们中的大多数[297]–[299]建议基于支持-查询图像级别的对应性/相似性生成一组候选点作为提示，其中支持掩码用于选择面向对象的提示，从而突显查询对象的语义。VRP-SAM [123]基于查询-支持对应关系学习了一组视觉参考提示，这些提示被输入到冻结的SAM中进行分割。APSeg [300]通过探索多个支持嵌入扩展了VRP-SAM，以生成更有意义的SAM提示。 3.3.5 基于LLM/MLLM的解决方案。

有几项研究[124], [301]尝试采用LLM/MLLM通过指令设计来解决FSS问题。LLaFS [124]将融合的支持-查询模式映射到语言空间，并让LLM描述所需分割掩码的坐标。[301]使用GPT-4作为任务规划器，将FSS分解为基于支持集的一系列子任务，随后调用SAM和GPT4Vision等视觉工具预测分割掩码。3.3.6 上下文分割 LLMs的快速进展导致了从少量示例中学习上下文的新能力的涌现[38], [45]。受这一令人惊叹的模式启发，一些研究人员旨在发掘计算机视觉中的类似设置，即上下文分割（ICS）。ICS的目标是基于支持集对查询图像进行分割，可以看作是FSS的一个子任务。然而，ICS不需要参数更新，可以直接在预训练模型上执行，而无需任务特定的微调。ICL涌现的LLMs大多是通过掩码语言建模或下一个标记预测策略训练的生成模型。因此，大多数工作通过直观模仿，通过探索视觉模型上的类似自监督模式来解决ICS问题。VPImpainting [302]是一项开创性工作，它将视觉上下文学习解决为图像修补。其架构如图3所示。它将视觉提示定义为一个网格状的单个图像，包含一个输入-输出示例和一个查询，然后训练一个修补模型（通过MAE [303]）预测图像的其余部分，使其与给定示例一致。在此基础上，[304]–[306]提出从大数据集中检索最合适的示例作为支持。此外，Painter [307]和SegGPT [51]是基于上下文学习构建的视觉通用模型。它们通过仔细重新定义核心视觉任务的输出为相同格式的图像，将各种视觉任务统一到上下文学习框架中。其他一些工作[308], [309]则专注于通过将图像格式化为一组序列作为视觉句子，来建立大型视觉模型，然后通过下一个标记预测进行类似LLM的训练。值得注意的是，这种视觉自回归模型的培养需要来自各种视觉任务的数百亿个视觉样本，例如图像分割、深度估计。PromptDiffusion [310]通过微调SD探索扩散模型的上下文学习，以在支持图像-掩码对和查询图像的条件下生成查询掩码。Matcher [311]利用DINOv2通过双向匹配定位查询图像中的目标，并将粗略位置信息作为SAM的提示进行分割。Tyche [312]通过显式建模训练和测试不确定性，将ICS扩展到一个概率分割框架，并在医学图像分割中展示了令人期待的性能。

结论

在本综述中，我们首次对基础模型时代的图像分割的最新进展进行了全面回顾。我们介绍了关键概念，并探讨了现有基础模型中内在的分割知识，如CLIP、扩散模型和DINO/DINOv2。此外，我们总结了300多种图像分割模型，以应对通用和可提示的图像分割任务。最后，我们强调了当前研究中的空白，指出了需要填补的领域，并阐明了未来研究的有前途的方向。我们希望这篇综述能够成为催化剂，激发未来的好奇心，并促进对基础模型在图像分割中潜力的持续探索热情。