面向图像分割的自监督学习：全面综述

摘要—监督学习需要大量精确标注的数据才能取得令人满意的效果。然而，这类数据的整理成本高昂，耗时费力。自监督学习（Self-Supervised Learning, SSL）通过利用海量未标注数据并构建替代任务（如预设任务或代理任务），在无需人工标注的前提下学习有用的特征表示，从而在一定程度上克服了上述限制。因此，SSL 已成为一种强大的机器学习（ML）范式，广泛应用于图像分类、目标检测和图像分割等多个计算机视觉下游任务中。

图像分割是诸多高阶视觉感知应用（如医学影像、智能交通、农业和监控等）的基础。尽管在基于 SSL 的语义分割领域中存在着巨大的研究潜力，系统梳理现有方法以追踪发展进展并为新入门研究者提供指导仍然十分必要。本综述全面调研了150余篇近期图像分割相关文献，重点聚焦于自监督学习方法，系统地对预设任务、下游任务以及图像分割研究中常用的基准数据集进行了实用性的分类和整理。最后，本文总结了从大量文献中提炼出的关键观察，并提出了未来的研究方向，旨在使该研究领域对读者更加易于理解与进入。 关键词—图像分割，机器学习，表示学习，自监督学习。

一、引言

图像分割是一种像素级的分类过程，它将输入图像划分为多个更具语义的信息区域，以服务于更高级的应用任务。例如，分割可以生成前景掩码，用于精确勾勒目标物体的轮廓，同时抑制背景细节，相较于简单的边界框，这种表示方式更加丰富，特别适用于视频监控等场景。在过去几十年中，图像分割技术经历了三种主要的学习范式演进：传统方法、端到端的监督式深度学习（Deep Learning, DL）方法，以及自监督学习（Self-Supervised Learning, SSL），如图1所示。传统方法如：灰度阈值分割、基于直方图的聚类、边缘检测、区域增长、图割、概率模型、条件随机场（Conditional Random Fields）[1], [2] 等，通常依赖预定义的启发式规则、假设及超参数，而非通过明确的模型训练和评估。这类方法先从预处理后的图像中提取显著特征，再进行分割，尽管在受控环境下能够取得稳定效果，但在真实世界中，由于输入数据具有不可预测性，其性能常常下降。近年来，深度学习的突破极大提升了图像分割的表现，得益于在大规模标注数据集上的端到端训练。许多最初为图像分类设计的 DL 架构已被有效扩展至分割任务，应用了全卷积网络（Fully Convolutional Networks, FCNs）、上采样、转置卷积（ConvT）及残差特征拼接等技术 [3]，在医学图像分割 [4]、动态目标分割、语义分割 [5]–[7] 等任务中均取得了当前最优（SOTA）的表现。与此同时，半监督和弱监督学习方法因其减少对标注数据依赖的能力而受到计算机视觉领域的广泛关注 [8]–[12]，这一趋势也推动了从传统监督学习向自监督学习的转变。

A. 从监督学习到自监督学习的范式转移

自监督学习作为一个快速发展的研究方向，能够从未标注数据中学习潜在特征。它通过设计预设任务，从原始数据中自动生成伪标签，使模型在无需人工标注的前提下进行训练。经过预训练后，模型可在目标领域中用极少量标注数据进行微调 [14]–[16]。这一过程类似于人类学习方式：通过不断反馈与适应逐步积累知识。相比之下，监督学习高度依赖大规模的人工标注数据，这在如医学图像分析等复杂领域中尤为昂贵且耗时。此外，监督模型更容易受到泛化误差、伪相关性以及对抗攻击的影响。而自监督学习通过挖掘未标注数据中的内在结构，有效减轻了这些问题，增强了模型的泛化能力与领域适应性。因此，SSL 在图像分类 [17]–[19]、目标识别 [20]–[23]、图像分割 [24]–[27] 及自然语言处理（如情感识别）[28], [29] 等众多应用中受到了广泛关注。

B. 现有综述研究

表I总结了已有的重要综述文章及其主要贡献。Chen 等人 [35] 回顾了心脏图像分割中的监督式深度学习方法；Minaee 等人 [3] 综合分析了图像分割相关的深度学习模型，探讨了其结构联系、优势与挑战；Liu 等人 [36] 则聚焦于脑肿瘤分割中的深度学习方法，涵盖了不同网络架构、不平衡数据下的表现及多模态处理策略。然而，聚焦于自监督学习的综述研究仍然较少，且大多数侧重于分类 [30]、目标检测 [37]、图像识别 [31] 和遥感场景 [38]。Xu [32] 简要概述了若干自监督框架，并评估了其在医学图像基准数据集上的性能。部分研究探讨了 SSL 在下游任务中的领域适应性，如 Rani 等人 [39] 总结了这些任务及相关数据集；Hao 等人 [5] 按监督程度对语义分割模型进行了分类；Shurrab 和 Duwairi [33] 虽综述了医学影像中的 SSL 方法，但未对模型性能进行深入分析；Jing 与 Tian [30] 将自监督的预设任务分为四类，并对其效果进行对比。尽管图像分割已是研究热点，现有综述多聚焦于监督学习方法，真正系统探讨自监督分割的文献仍非常有限，这凸显了开展本研究以弥补该空白的必要性。本文结构如下：第二节介绍自监督学习的基本原理；第三节系统评述图像分割中的 SSL 方法；第四节列出主流基准数据集；第五节探讨当前挑战与未来研究方向；第六节总结全文。

C. 本文贡献

鉴于 SSL 在缓解数据稀缺问题方面的有效性，本文对近年来基于 SSL 的图像分割算法进行了深入的比较与分析，主要贡献包括： 1. 对自监督学习方法进行全面回顾； 1. 系统分类基于 SSL 的图像分割模型及其应用场景； 1. 梳理用于模型训练与评估的主流图像分割基准数据集； 1. 分析图像分割中 SSL 面临的挑战，并探讨未来的研究方向。