Medical Multi-modal Large Language Models (MLLMs) have shown promising clinical performance. However, their sensitivity to real-world input perturbations, such as imaging artifacts and textual errors, critically undermines their clinical applicability. Systematic analysis of such noise impact on medical MLLMs remains largely unexplored. Furthermore, while several works have investigated the MLLMs' robustness in general domains, they primarily focus on text modality and rely on costly fine-tuning. They are inadequate to address the complex noise patterns and fulfill the strict safety standards in medicine. To bridge this gap, this work systematically analyzes the impact of various perturbations on medical MLLMs across both visual and textual modalities. Building on our findings, we introduce a training-free Inherent-enhanced Multi-modal Calibration (IMC) framework that leverages MLLMs' inherent denoising capabilities following the perceive-and-calibrate principle for cross-modal robustness enhancement. For the visual modality, we propose a Perturbation-aware Denoising Calibration (PDC) which leverages MLLMs' own vision encoder to identify noise patterns and perform prototype-guided feature calibration. For text denoising, we design a Self-instantiated Multi-agent System (SMS) that exploits the MLLMs' self-assessment capabilities to refine noisy text through a cooperative hierarchy of agents. We construct a benchmark containing 11 types of noise across both image and text modalities on 2 datasets. Experimental results demonstrate our method achieves the state-of-the-art performance across multiple modalities, showing potential to enhance MLLMs' robustness in real clinical scenarios.


翻译:医疗多模态大语言模型(MLLMs)已展现出良好的临床性能。然而,其对现实世界输入扰动(如图像伪影和文本错误)的敏感性严重削弱了其临床适用性。此类噪声对医疗MLLMs影响的系统性分析仍基本处于空白。此外,尽管已有若干研究探讨通用领域MLLMs的鲁棒性,但这些工作主要关注文本模态且依赖昂贵的微调方法,难以应对医学领域复杂的噪声模式并满足严格的安全标准。为填补这一空白,本研究系统分析了视觉与文本双模态下各类扰动对医疗MLLMs的影响。基于研究发现,我们提出了无需训练的固有增强多模态校准(IMC)框架,该框架遵循感知-校准原则,利用MLLMs固有的去噪能力实现跨模态鲁棒性增强。针对视觉模态,我们提出扰动感知去噪校准(PDC),利用MLLMs自身的视觉编码器识别噪声模式,并进行原型引导的特征校准。针对文本去噪,我们设计了自实例化多智能体系统(SMS),通过挖掘MLLMs的自评估能力,构建协作式智能体层次结构来优化噪声文本。我们在两个数据集上构建了涵盖图像与文本模态共11类噪声的基准测试集。实验结果表明,我们的方法在多个模态上均达到了最先进的性能,展现出提升MLLMs在真实临床场景中鲁棒性的潜力。

0
下载
关闭预览

相关内容

PlanGenLLMs:大型语言模型规划能力的最新综述
专知会员服务
33+阅读 · 5月18日
临床自然语言处理中的嵌入综述,SECNLP: A survey of embeddings
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员