1 引言

在过去十年中,生物医学图像分割经历了显著的发展,从最初的简单卷积神经网络(CNN)方法逐步演进为复杂的深度学习架构。该领域的首个重大突破来自 Ronneberger 等人于 2015 年提出的 U-Net 模型,其独特的编码器-解码器结构与跳跃连接机制彻底改变了医学图像分割的格局。U-Net 为语义分割,特别是生物医学图像中的语义分割,提供了一个稳健的框架,使得解剖结构的精确勾画成为可能,并被广泛应用于各种计算机视觉任务中。 随后,基于 Transformer 的架构在图像分析与分割中带来了又一关键转折点。最初用于自然语言处理的 Transformer 迅速被引入计算机视觉领域,挑战了传统的 CNN 范式。谷歌的《Attention is All You Need》(Vaswani 等,2017)与《An Image is Worth 16x16 Words》(Dosovitskiy 等,2020)奠定了架构创新的基础,推动医学影像的转型发展。不久后,Liu 等人提出的 Swin Transformer(2021a,2022b)引入了分层视觉 Transformer(ViT)架构,在提升计算效率的同时改善了图像处理能力。 与 Transformer 的发展并行,CNN 架构也持续演进。Meta 的 Woo 等人提出的 ConvNeXt(2023)重新构想了 CNN,融合了诸如倒置瓶颈结构、深度可分离卷积和宽卷积核等 Transformer 风格的设计原则。其继任者 ConvNeXt V2 在此基础上进一步改进,引入了如掩码图像重建等先进的无监督预训练策略,初步迈向(但尚未进入)“基础模型”(Foundation Models)领域。 随着架构与预训练框架在更大规模数据集上的发展,这一进程最终促成了基础模型的诞生。基础模型被定义为在大规模数据上进行自监督学习训练的模型,可通过微调等方式适应多种下游任务(Bommasani 等,2021)。也有学者将这类具备高迁移性与多任务处理能力的模型称为“通用模型”(universal models)(Chen 等,2024c)。由于二者均指向“通用人工智能”(generalist AI)的理念,因此我们在此统一使用“通用模型”(generalist models)一词指代它们。 计算机视觉领域的通用模型崛起,源于大语言模型(LLMs)带来的成功范式转移,如 BERT(编码器型 Transformer)与 GPT(解码器型 Transformer)。这些模型证明了在大规模数据集上进行自监督预训练能够学得具有强泛化能力的表示,并揭示了模型规模与计算资源扩展对于特征学习的重要性(Devlin 等,2019;Radford 等,2018)。 这一范式首先通过两大自监督预训练方法在视觉领域实现:OpenAI 的 CLIP(Contrastive Language–Image Pre-training,Radford 等,2021)利用图文对训练获得强大的视觉表示能力;Meta 的 DINO(Distillation with No Labels,Caron 等,2021)则提出无监督方式对 ViT 进行预训练。随后,领域逐渐向更具泛化能力的架构发展,如 SEEM(Segment Everything Everywhere All at Once,Zou 等,2023a,b)、SAM(Segment Anything Model,Kirillov 等,2023a)以及其迭代版本 SAM 2(Ravi 等,2024a)。 随着语言领域的通用模型向视觉迁移,医学影像领域也开始从监督式、任务特定模型(通常仅限于小范围数据集、特定解剖结构、单一任务或单一成像模态)转向“预训练+适配”范式(Moor 等,2023)。其中一些典型例子包括 SAM 的医学适配版本,如 MedSAM(Ma 等,2024a)和 Medical SAM 2(Zhu 等,2024),以及原生的通用医学模型,如微软提出的 BiomedParse(Zhao 等,2024b)。该领域的关键进展可参见图 1 所示的时间线。 与当前常将 Transformer 与 CNN 的对立作为主流讨论的视角不同,我们的研究认为,现代医学图像分割的核心分歧并不在于架构类型,而在于“通用模型”与“任务特定模型”之间的根本差异。前者在百万级多模态医学图像上进行预训练,展现出卓越的适应性和一致性,能够跨越不同解剖区域,而后者通常局限于特定任务和单一模态。 医学图像中的通用模型不仅是技术上的突破,更是 AI 方法论上的一次哲学转变。通过大规模预训练和多模态学习,这些模型打破了对任务过度专门化的传统思维,展现出在复杂医学任务中实现泛化学习的潜力,从而减少了对大量任务特定标注数据的依赖。

成为VIP会员查看完整内容
4

相关内容

医学影像中的高效扩散模型:全面综述
专知会员服务
15+阅读 · 5月26日
视频生成中的物理认知演进探究:一项综述
专知会员服务
15+阅读 · 3月30日
多模态基础模型的机制可解释性综述
专知会员服务
36+阅读 · 2月28日
跨多种数据模态的视觉目标跟踪:综述
专知会员服务
28+阅读 · 2024年12月16日
机器人中的深度生成模型:多模态演示学习的综述
专知会员服务
37+阅读 · 2024年8月9日
大型语言模型在软件工程:调查与待解决的问题
专知会员服务
76+阅读 · 2023年10月6日
迁移学习方法在医学图像领域的应用综述
专知会员服务
61+阅读 · 2022年1月6日
高效医疗图像分析的统一表示
专知会员服务
35+阅读 · 2020年6月23日
数据受限条件下的多模态处理技术综述
专知
20+阅读 · 2022年7月16日
深度学习与医学图像分析
人工智能前沿讲习班
40+阅读 · 2019年6月8日
医疗中的自动机器学习和可解释性
专知
24+阅读 · 2019年4月1日
图神经网络综述:模型与应用
PaperWeekly
198+阅读 · 2018年12月26日
知识图谱中的深度学习技术应用概述
深度学习与NLP
11+阅读 · 2018年9月13日
基于注意力机制的图卷积网络
科技创新与创业
73+阅读 · 2017年11月8日
从浅层模型到深度模型:概览机器学习优化算法
机器之心
27+阅读 · 2017年7月9日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
170+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
464+阅读 · 2023年3月31日
Arxiv
76+阅读 · 2023年3月26日
Arxiv
24+阅读 · 2023年3月17日
VIP会员
相关VIP内容
医学影像中的高效扩散模型:全面综述
专知会员服务
15+阅读 · 5月26日
视频生成中的物理认知演进探究:一项综述
专知会员服务
15+阅读 · 3月30日
多模态基础模型的机制可解释性综述
专知会员服务
36+阅读 · 2月28日
跨多种数据模态的视觉目标跟踪:综述
专知会员服务
28+阅读 · 2024年12月16日
机器人中的深度生成模型:多模态演示学习的综述
专知会员服务
37+阅读 · 2024年8月9日
大型语言模型在软件工程:调查与待解决的问题
专知会员服务
76+阅读 · 2023年10月6日
迁移学习方法在医学图像领域的应用综述
专知会员服务
61+阅读 · 2022年1月6日
高效医疗图像分析的统一表示
专知会员服务
35+阅读 · 2020年6月23日
相关资讯
数据受限条件下的多模态处理技术综述
专知
20+阅读 · 2022年7月16日
深度学习与医学图像分析
人工智能前沿讲习班
40+阅读 · 2019年6月8日
医疗中的自动机器学习和可解释性
专知
24+阅读 · 2019年4月1日
图神经网络综述:模型与应用
PaperWeekly
198+阅读 · 2018年12月26日
知识图谱中的深度学习技术应用概述
深度学习与NLP
11+阅读 · 2018年9月13日
基于注意力机制的图卷积网络
科技创新与创业
73+阅读 · 2017年11月8日
从浅层模型到深度模型:概览机器学习优化算法
机器之心
27+阅读 · 2017年7月9日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员