Surgical video segmentation is crucial for computer-assisted surgery, enabling precise localization and tracking of instruments and tissues. Interactive Video Object Segmentation (iVOS) models such as Segment Anything Model 2 (SAM2) provide prompt-based flexibility beyond methods with predefined categories, but face challenges in surgical scenarios due to the domain gap and limited long-term tracking. To address these limitations, we construct SA-SV, the largest surgical iVOS benchmark with instance-level spatio-temporal annotations (masklets) spanning eight procedure types (61k frames, 1.6k masklets), enabling comprehensive development and evaluation for long-term tracking and zero-shot generalization. Building on SA-SV, we propose SAM2S, a foundation model enhancing \textbf{SAM2} for \textbf{S}urgical iVOS through: (1) DiveMem, a trainable diverse memory mechanism for robust long-term tracking; (2) temporal semantic learning for instrument understanding; and (3) ambiguity-resilient learning to mitigate annotation inconsistencies across multi-source datasets. Extensive experiments demonstrate that fine-tuning on SA-SV enables substantial performance gains, with SAM2 improving by 12.99 average $\mathcal{J}$\&$\mathcal{F}$ over vanilla SAM2. SAM2S further advances performance to 80.42 average $\mathcal{J}$\&$\mathcal{F}$, surpassing vanilla and fine-tuned SAM2 by 17.10 and 4.11 points respectively, while maintaining 68 FPS real-time inference and strong zero-shot generalization. Code and dataset will be released at https://jinlab-imvr.github.io/SAM2S.


翻译:手术视频分割对于计算机辅助手术至关重要,能够实现器械和组织的精确定位与跟踪。交互式视频对象分割(iVOS)模型,如Segment Anything Model 2(SAM2),提供了基于提示的灵活性,超越了具有预定义类别的方法,但在手术场景中由于领域差距和有限的长期跟踪能力而面临挑战。为解决这些限制,我们构建了SA-SV,这是最大的手术iVOS基准数据集,包含跨越八种手术类型的实例级时空标注(掩码片段)(61k帧,1.6k掩码片段),为长期跟踪和零样本泛化提供了全面的开发和评估基础。基于SA-SV,我们提出了SAM2S,这是一个基础模型,通过以下方式增强了SAM2以用于手术iVOS:(1)DiveMem,一种可训练的多样化记忆机制,用于鲁棒的长期跟踪;(2)用于器械理解的时间语义学习;以及(3)抗模糊性学习,以减轻多源数据集间的标注不一致性。大量实验表明,在SA-SV上进行微调能带来显著的性能提升,SAM2的平均$\mathcal{J}$\&$\mathcal{F}$分数相比原始SAM2提高了12.99。SAM2S进一步将性能提升至80.42平均$\mathcal{J}$\&$\mathcal{F}$,分别超过原始和微调后的SAM2 17.10和4.11分,同时保持68 FPS的实时推理能力和强大的零样本泛化性能。代码和数据集将在https://jinlab-imvr.github.io/SAM2S发布。

0
下载
关闭预览

相关内容

【ACMMM2025】EvoVLMA: 进化式视觉-语言模型自适应
专知会员服务
15+阅读 · 8月5日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员