Vision--Language Models (VLMs) show significant promise for Medical Visual Question Answering (VQA), yet their deployment in clinical settings is hindered by severe vulnerability to adversarial attacks. Standard adversarial training, while effective for simpler tasks, often degrades both generalization performance and the quality of generated clinical reasoning. We introduce SafeMed-R1, a hybrid defense framework that ensures robust performance while preserving high-quality, interpretable medical reasoning. SafeMed-R1 employs a two-stage approach: at training time, we integrate Adversarial Training with Group Relative Policy Optimization (AT-GRPO) to explicitly robustify the reasoning process against worst-case perturbations; at inference time, we augment the model with Randomized Smoothing to provide certified $L_2$-norm robustness guarantees. We evaluate SafeMed-R1 on the OmniMedVQA benchmark across eight medical imaging modalities comprising over 88,000 samples. Our experiments reveal that standard fine-tuned VLMs, despite achieving 95\% accuracy on clean inputs, collapse to approximately 25\% under PGD attacks. In contrast, SafeMed-R1 maintains 84.45\% accuracy under the same adversarial conditions, representing a 59 percentage point improvement in robustness. Furthermore, we demonstrate that models trained with explicit chain-of-thought reasoning exhibit superior adversarial robustness compared to instruction-only variants, suggesting a synergy between interpretability and security in medical AI systems.


翻译:视觉语言模型在医疗视觉问答任务中展现出巨大潜力,但其在临床环境中的部署因对对抗攻击的严重脆弱性而受阻。标准的对抗训练方法虽然在简单任务中有效,却常常会降低模型的泛化性能及生成临床推理的质量。本文提出SafeMed-R1——一种混合防御框架,该框架在确保鲁棒性能的同时,能够保持高质量、可解释的医疗推理。SafeMed-R1采用两阶段方法:在训练阶段,我们通过集成对抗训练与组相对策略优化,显式地增强推理过程对最坏情况扰动的鲁棒性;在推理阶段,我们采用随机平滑技术为模型提供经过认证的$L_2$范数鲁棒性保证。我们在涵盖八种医学影像模态、包含超过88,000个样本的OmniMedVQA基准上评估了SafeMed-R1。实验表明,标准微调的视觉语言模型虽然在干净输入上达到95%的准确率,但在PGD攻击下会骤降至约25%。相比之下,SafeMed-R1在相同对抗条件下仍保持84.45%的准确率,鲁棒性提升了59个百分点。此外,我们发现采用显式思维链推理训练的模型相比仅使用指令训练的变体表现出更优的对抗鲁棒性,这揭示了医疗人工智能系统中可解释性与安全性之间的协同效应。

0
下载
关闭预览

相关内容

UTC: 用于视觉对话的任务间对比学习的统一Transformer
专知会员服务
14+阅读 · 2022年5月4日
【AAAI2021】“可瘦身”的生成式对抗网络
专知会员服务
13+阅读 · 2020年12月12日
AAAI 2022 | ProtGNN:自解释图神经网络
专知
10+阅读 · 2022年2月28日
【NeurIPS2019】图变换网络:Graph Transformer Network
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员