Surgical segmentation is pivotal for scene understanding yet remains hindered by annotation scarcity and semantic inconsistency across diverse procedures. Existing approaches typically fine-tune natural foundation models (e.g., SAM) with limited supervision, functioning merely as domain adapters rather than surgical foundation models. Consequently, they struggle to generalize across the vast variability of surgical targets. To bridge this gap, we present LapFM, a foundation model designed to evolve robust segmentation capabilities from massive unlabeled surgical images. Distinct from medical foundation models relying on inefficient self-supervised proxy tasks, LapFM leverages a Hierarchical Concept Evolving Pre-training paradigm. First, we establish a Laparoscopic Concept Hierarchy (LCH) via a hierarchical mask decoder with parent-child query embeddings, unifying diverse entities (i.e., Anatomy, Tissue, and Instrument) into a scalable knowledge structure with cross-granularity semantic consistency. Second, we propose a Confidence-driven Evolving Labeling that iteratively generates and filters pseudo-labels based on hierarchical consistency, progressively incorporating reliable samples from unlabeled images into training. This process yields LapBench-114K, a large-scale benchmark comprising 114K image-mask pairs. Extensive experiments demonstrate that LapFM significantly outperforms state-of-the-art methods, establishing new standards for granularity-adaptive generalization in universal laparoscopic segmentation. The source code is available at https://github.com/xq141839/LapFM.


翻译:手术分割对于场景理解至关重要,但仍受限于标注稀缺性以及不同手术间语义不一致的挑战。现有方法通常利用有限监督对自然基础模型(如SAM)进行微调,仅充当领域适配器而非真正的手术基础模型,因此难以泛化至广泛多变的手术目标。为弥合这一差距,我们提出LapFM,这是一种旨在从海量无标注手术图像中演化出鲁棒分割能力的基础模型。与依赖低效自监督代理任务的医学基础模型不同,LapFM采用了一种层次化概念演化预训练范式。首先,我们通过一个具有父子查询嵌入的层次化掩码解码器,构建了腹腔镜概念层次结构(LCH),将多样实体(即解剖结构、组织和器械)统一为具有跨粒度语义一致性的可扩展知识框架。其次,我们提出置信度驱动的演化标注方法,基于层次一致性迭代生成并筛选伪标签,逐步将无标注图像中的可靠样本纳入训练。这一过程产生了LapBench-114K,一个包含11.4万张图像-掩码对的大规模基准数据集。大量实验表明,LapFM显著优于现有最先进方法,为通用腹腔镜分割中的粒度自适应泛化树立了新标准。源代码发布于https://github.com/xq141839/LapFM。

0
下载
关闭预览

相关内容

UTC: 用于视觉对话的任务间对比学习的统一Transformer
专知会员服务
14+阅读 · 2022年5月4日
MonoGRNet:单目3D目标检测的通用框架(TPAMI2021)
专知会员服务
18+阅读 · 2021年5月3日
AAAI 2022 | ProtGNN:自解释图神经网络
专知
10+阅读 · 2022年2月28日
【NeurIPS2019】图变换网络:Graph Transformer Network
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员