Text-guided medical segmentation enhances segmentation accuracy by utilizing clinical reports as auxiliary information. However, existing methods typically rely on unaligned image and text encoders, which necessitate complex interaction modules for multimodal fusion. While CLIP provides a pre-aligned multimodal feature space, its direct application to medical imaging is limited by three main issues: insufficient preservation of fine-grained anatomical structures, inadequate modeling of complex clinical descriptions, and domain-specific semantic misalignment. To tackle these challenges, we propose TGC-Net, a CLIP-based framework focusing on parameter-efficient, task-specific adaptations. Specifically, it incorporates a Semantic-Structural Synergy Encoder (SSE) that augments CLIP's ViT with a CNN branch for multi-scale structural refinement, a Domain-Augmented Text Encoder (DATE) that injects large-language-model-derived medical knowledge, and a Vision-Language Calibration Module (VLCM) that refines cross-modal correspondence in a unified feature space. Experiments on five datasets across chest X-ray and thoracic CT modalities demonstrate that TGC-Net achieves state-of-the-art performance with substantially fewer trainable parameters, including notable Dice gains on challenging benchmarks.


翻译:文本引导的医学图像分割通过利用临床报告作为辅助信息来提升分割精度。然而,现有方法通常依赖于未对齐的图像与文本编码器,这需要复杂的交互模块来实现多模态融合。尽管CLIP提供了一个预对齐的多模态特征空间,但其直接应用于医学成像领域主要受到三个问题的限制:细粒度解剖结构信息保留不足、复杂临床描述的建模不充分,以及领域特定的语义失准。为应对这些挑战,我们提出了TGC-Net,这是一个基于CLIP的框架,专注于参数高效、任务特定的适配。具体而言,它包含一个语义-结构协同编码器(SSE),该编码器通过引入CNN分支来增强CLIP的ViT,以实现多尺度结构细化;一个领域增强文本编码器(DATE),用于注入源自大语言模型的医学知识;以及一个视觉-语言校准模块(VLCM),用于在统一的特征空间中优化跨模态对应关系。在涵盖胸部X光与胸部CT模态的五个数据集上的实验表明,TGC-Net以显著更少的可训练参数实现了最先进的性能,包括在具有挑战性的基准测试上取得了显著的Dice分数提升。

0
下载
关闭预览

相关内容

国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员