摘要—监督学习需要大量精确标注的数据才能取得令人满意的效果。然而,这类数据的整理成本高昂,耗时费力。自监督学习(Self-Supervised Learning, SSL)通过利用海量未标注数据并构建替代任务(如预设任务或代理任务),在无需人工标注的前提下学习有用的特征表示,从而在一定程度上克服了上述限制。因此,SSL 已成为一种强大的机器学习(ML)范式,广泛应用于图像分类、目标检测和图像分割等多个计算机视觉下游任务中。

图像分割是诸多高阶视觉感知应用(如医学影像、智能交通、农业和监控等)的基础。尽管在基于 SSL 的语义分割领域中存在着巨大的研究潜力,系统梳理现有方法以追踪发展进展并为新入门研究者提供指导仍然十分必要。本综述全面调研了150余篇近期图像分割相关文献,重点聚焦于自监督学习方法,系统地对预设任务、下游任务以及图像分割研究中常用的基准数据集进行了实用性的分类和整理。最后,本文总结了从大量文献中提炼出的关键观察,并提出了未来的研究方向,旨在使该研究领域对读者更加易于理解与进入。 关键词—图像分割,机器学习,表示学习,自监督学习。

一、引言

图像分割是一种像素级的分类过程,它将输入图像划分为多个更具语义的信息区域,以服务于更高级的应用任务。例如,分割可以生成前景掩码,用于精确勾勒目标物体的轮廓,同时抑制背景细节,相较于简单的边界框,这种表示方式更加丰富,特别适用于视频监控等场景。 在过去几十年中,图像分割技术经历了三种主要的学习范式演进:传统方法、端到端的监督式深度学习(Deep Learning, DL)方法,以及自监督学习(Self-Supervised Learning, SSL),如图1所示。传统方法如:灰度阈值分割、基于直方图的聚类、边缘检测、区域增长、图割、概率模型、条件随机场(Conditional Random Fields)[1], [2] 等,通常依赖预定义的启发式规则、假设及超参数,而非通过明确的模型训练和评估。这类方法先从预处理后的图像中提取显著特征,再进行分割,尽管在受控环境下能够取得稳定效果,但在真实世界中,由于输入数据具有不可预测性,其性能常常下降。 近年来,深度学习的突破极大提升了图像分割的表现,得益于在大规模标注数据集上的端到端训练。许多最初为图像分类设计的 DL 架构已被有效扩展至分割任务,应用了全卷积网络(Fully Convolutional Networks, FCNs)、上采样、转置卷积(ConvT)及残差特征拼接等技术 [3],在医学图像分割 [4]、动态目标分割、语义分割 [5]–[7] 等任务中均取得了当前最优(SOTA)的表现。 与此同时,半监督和弱监督学习方法因其减少对标注数据依赖的能力而受到计算机视觉领域的广泛关注 [8]–[12],这一趋势也推动了从传统监督学习向自监督学习的转变。

A. 从监督学习到自监督学习的范式转移

自监督学习作为一个快速发展的研究方向,能够从未标注数据中学习潜在特征。它通过设计预设任务,从原始数据中自动生成伪标签,使模型在无需人工标注的前提下进行训练。经过预训练后,模型可在目标领域中用极少量标注数据进行微调 [14]–[16]。这一过程类似于人类学习方式:通过不断反馈与适应逐步积累知识。 相比之下,监督学习高度依赖大规模的人工标注数据,这在如医学图像分析等复杂领域中尤为昂贵且耗时。此外,监督模型更容易受到泛化误差、伪相关性以及对抗攻击的影响。而自监督学习通过挖掘未标注数据中的内在结构,有效减轻了这些问题,增强了模型的泛化能力与领域适应性。因此,SSL 在图像分类 [17]–[19]、目标识别 [20]–[23]、图像分割 [24]–[27] 及自然语言处理(如情感识别)[28], [29] 等众多应用中受到了广泛关注。

B. 现有综述研究

表I总结了已有的重要综述文章及其主要贡献。Chen 等人 [35] 回顾了心脏图像分割中的监督式深度学习方法;Minaee 等人 [3] 综合分析了图像分割相关的深度学习模型,探讨了其结构联系、优势与挑战;Liu 等人 [36] 则聚焦于脑肿瘤分割中的深度学习方法,涵盖了不同网络架构、不平衡数据下的表现及多模态处理策略。 然而,聚焦于自监督学习的综述研究仍然较少,且大多数侧重于分类 [30]、目标检测 [37]、图像识别 [31] 和遥感场景 [38]。Xu [32] 简要概述了若干自监督框架,并评估了其在医学图像基准数据集上的性能。部分研究探讨了 SSL 在下游任务中的领域适应性,如 Rani 等人 [39] 总结了这些任务及相关数据集;Hao 等人 [5] 按监督程度对语义分割模型进行了分类;Shurrab 和 Duwairi [33] 虽综述了医学影像中的 SSL 方法,但未对模型性能进行深入分析;Jing 与 Tian [30] 将自监督的预设任务分为四类,并对其效果进行对比。 尽管图像分割已是研究热点,现有综述多聚焦于监督学习方法,真正系统探讨自监督分割的文献仍非常有限,这凸显了开展本研究以弥补该空白的必要性。 本文结构如下:第二节介绍自监督学习的基本原理;第三节系统评述图像分割中的 SSL 方法;第四节列出主流基准数据集;第五节探讨当前挑战与未来研究方向;第六节总结全文。

C. 本文贡献

鉴于 SSL 在缓解数据稀缺问题方面的有效性,本文对近年来基于 SSL 的图像分割算法进行了深入的比较与分析,主要贡献包括: 1. 对自监督学习方法进行全面回顾; 1. 系统分类基于 SSL 的图像分割模型及其应用场景; 1. 梳理用于模型训练与评估的主流图像分割基准数据集; 1. 分析图像分割中 SSL 面临的挑战,并探讨未来的研究方向。

成为VIP会员查看完整内容
8

相关内容

图像分割就是把图像分成若干个特定的、具有独特性质的区域并提出感兴趣目标的技术和过程。它是由图像处理到图像分析的关键步骤。 所谓图像分割指的是根据灰度、颜色、纹理和形状等特征把图像划分成若干互不交迭的区域,并使这些特征在同一区域内呈现出相似性,而在不同区域间呈现出明显的差异性。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
智能体检索增强生成:关于智能体RAG的综述
专知会员服务
62+阅读 · 1月21日
机器人中的深度生成模型:多模态演示学习的综述
专知会员服务
37+阅读 · 2024年8月9日
基于强化学习的扩散模型微调:教程与综述
专知会员服务
43+阅读 · 2024年7月20日
大语言模型的终身学习综述
专知会员服务
70+阅读 · 2024年6月15日
《大型语言模型中基于检索的文本生成》综述
专知会员服务
56+阅读 · 2024年4月18日
【CVPR2024】渐进式语义引导视觉变换器用于零样本学习
专知会员服务
19+阅读 · 2024年4月13日
视觉语言多模态预训练综述
专知会员服务
120+阅读 · 2022年7月11日
专知会员服务
40+阅读 · 2021年6月19日
基于模型的强化学习综述
专知
38+阅读 · 2022年7月13日
深度学习图像检索(CBIR): 十年之大综述
专知
66+阅读 · 2020年12月5日
【KDD2020】图神经网络生成式预训练
专知
22+阅读 · 2020年7月3日
如何使用自然语言工具包(NLTK)在Python3中执行情感分析
Python程序员
21+阅读 · 2019年10月28日
基于逆强化学习的示教学习方法综述
计算机研究与发展
15+阅读 · 2019年2月25日
深度学习与计算机视觉任务应用综述
深度学习与NLP
50+阅读 · 2018年12月18日
2018年深度学习优化算法最新综述
计算机视觉战队
10+阅读 · 2018年12月11日
基于图片内容的深度学习图片检索(一)
七月在线实验室
20+阅读 · 2017年10月1日
国家自然科学基金
41+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
A Survey of Large Language Models
Arxiv
463+阅读 · 2023年3月31日
Arxiv
24+阅读 · 2023年3月17日
Arxiv
18+阅读 · 2021年3月16日
Augmentation for small object detection
Arxiv
11+阅读 · 2019年2月19日
VIP会员
相关VIP内容
智能体检索增强生成:关于智能体RAG的综述
专知会员服务
62+阅读 · 1月21日
机器人中的深度生成模型:多模态演示学习的综述
专知会员服务
37+阅读 · 2024年8月9日
基于强化学习的扩散模型微调:教程与综述
专知会员服务
43+阅读 · 2024年7月20日
大语言模型的终身学习综述
专知会员服务
70+阅读 · 2024年6月15日
《大型语言模型中基于检索的文本生成》综述
专知会员服务
56+阅读 · 2024年4月18日
【CVPR2024】渐进式语义引导视觉变换器用于零样本学习
专知会员服务
19+阅读 · 2024年4月13日
视觉语言多模态预训练综述
专知会员服务
120+阅读 · 2022年7月11日
专知会员服务
40+阅读 · 2021年6月19日
相关资讯
基于模型的强化学习综述
专知
38+阅读 · 2022年7月13日
深度学习图像检索(CBIR): 十年之大综述
专知
66+阅读 · 2020年12月5日
【KDD2020】图神经网络生成式预训练
专知
22+阅读 · 2020年7月3日
如何使用自然语言工具包(NLTK)在Python3中执行情感分析
Python程序员
21+阅读 · 2019年10月28日
基于逆强化学习的示教学习方法综述
计算机研究与发展
15+阅读 · 2019年2月25日
深度学习与计算机视觉任务应用综述
深度学习与NLP
50+阅读 · 2018年12月18日
2018年深度学习优化算法最新综述
计算机视觉战队
10+阅读 · 2018年12月11日
基于图片内容的深度学习图片检索(一)
七月在线实验室
20+阅读 · 2017年10月1日
相关基金
国家自然科学基金
41+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员