The recent integration of artificial intelligence into medical imaging has driven remarkable advances in automated organ segmentation. However, most existing 3D segmentation frameworks rely exclusively on visual learning from large annotated datasets restricting their adaptability to new domains and clinical tasks. The lack of semantic understanding in these models makes them ineffective in addressing flexible, user-defined segmentation objectives. To overcome these limitations, we propose SwinTF3D, a lightweight multimodal fusion approach that unifies visual and linguistic representations for text-guided 3D medical image segmentation. The model employs a transformer-based visual encoder to extract volumetric features and integrates them with a compact text encoder via an efficient fusion mechanism. This design allows the system to understand natural-language prompts and correctly align semantic cues with their corresponding spatial structures in medical volumes, while producing accurate, context-aware segmentation results with low computational overhead. Extensive experiments on the BTCV dataset demonstrate that SwinTF3D achieves competitive Dice and IoU scores across multiple organs, despite its compact architecture. The model generalizes well to unseen data and offers significant efficiency gains compared to conventional transformer-based segmentation networks. Bridging visual perception with linguistic understanding, SwinTF3D establishes a practical and interpretable paradigm for interactive, text-driven 3D medical image segmentation, opening perspectives for more adaptive and resource-efficient solutions in clinical imaging.


翻译:近年来,人工智能与医学影像的融合极大地推动了自动化器官分割领域的显著进展。然而,现有的大多数三维分割框架完全依赖于从大规模标注数据集中进行视觉学习,这限制了其对新领域和临床任务的适应性。这些模型缺乏语义理解能力,使其难以有效应对灵活、用户定义的分割目标。为克服这些局限性,我们提出了 SwinTF3D,一种轻量级多模态融合方法,它统一了视觉与语言表征,用于文本引导的三维医学图像分割。该模型采用基于 Transformer 的视觉编码器提取体数据特征,并通过高效的融合机制将其与紧凑的文本编码器相集成。这一设计使得系统能够理解自然语言提示,并将语义线索与医学体数据中对应的空间结构正确对齐,同时以较低的计算开销产生准确、上下文感知的分割结果。在 BTCV 数据集上进行的大量实验表明,尽管架构紧凑,SwinTF3D 在多个器官上均取得了具有竞争力的 Dice 和 IoU 分数。该模型对未见数据具有良好的泛化能力,并且与传统的基于 Transformer 的分割网络相比,能显著提升效率。通过将视觉感知与语言理解相结合,SwinTF3D 为交互式、文本驱动的三维医学图像分割建立了一个实用且可解释的范式,为临床影像中更具适应性和资源高效性的解决方案开辟了前景。

0
下载
关闭预览

相关内容

专知会员服务
22+阅读 · 2021年8月20日
Python图像处理,366页pdf,Image Operators Image Processing in Python
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
VIP会员
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员