视觉-语言模型(VLMs)在二维医学图像分析中已展现出潜力,但将其扩展到三维领域仍面临挑战,主要源于体数据的高计算需求以及三维空间特征与临床文本的对齐困难。为此,我们提出Med3DVLM——一种通过三项关键创新解决这些难题的三维视觉-语言模型: 1. DCFormer编码器:采用分解式三维卷积的高效架构,可规模化捕捉细粒度空间特征; 1. SigLIP对比学习策略:基于成对Sigmoid损失的训练方法,无需依赖大批量负样本即可提升图文对齐效果; 1. 双流MLP-Mixer投影器:融合图像多层次特征与文本嵌入,生成更丰富的多模态表征。

我们在包含120,084例三维医学影像的M3D数据集(含放射学报告和视觉问答数据)上评估模型性能,结果显示Med3DVLM在多项基准测试中均取得突破: * 图文检索:在2,000样本上R@1达61.00%,显著超越当前最优模型M3D-LaMed(19.10%) * 报告生成:METEOR分数36.42%(基线14.38%) * 开放式视觉问答(VQA):METEOR 36.76%(基线33.58%) * 封闭式VQA:准确率79.95%(基线75.78%)

这些成果证明Med3DVLM能有效弥合三维影像与语言之间的鸿沟,为临床应用的规模化多任务推理提供支持。项目代码已开源:https://github.com/mirthAI/Med3DVLM。


成为VIP会员查看完整内容
7

相关内容

《以人为中心的大型语言模型(LLM)研究综述》
专知会员服务
37+阅读 · 2024年11月25日
《武器目标分配问题:精确和近似解法算法》
专知会员服务
77+阅读 · 2024年6月22日
《应对人工智能系统测试和评估新挑战的最佳实践》
专知会员服务
82+阅读 · 2023年8月7日
最新《图嵌入组合优化》综述论文,40页pdf
【KDD2020】图神经网络:基础与应用,322页ppt
深度学习与计算机视觉任务应用综述
深度学习与NLP
50+阅读 · 2018年12月18日
国家自然科学基金
41+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
A Survey of Large Language Models
Arxiv
447+阅读 · 2023年3月31日
Arxiv
75+阅读 · 2023年3月26日
VIP会员
相关基金
国家自然科学基金
41+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员