Recent advances in vision-language models (VLMs) have improved Chest X-ray (CXR) interpretation in multiple aspects. However, many medical VLMs rely solely on supervised fine-tuning (SFT), which optimizes next-token prediction without evaluating answer quality. In contrast, reinforcement learning (RL) can incorporate task-specific feedback, and its combination with explicit intermediate reasoning ("thinking") has demonstrated substantial gains on verifiable math and coding tasks. To investigate the effects of RL and thinking in a CXR VLM, we perform large-scale SFT on CXR data to build an updated RadVLM based on Qwen3-VL, followed by a cold-start SFT stage that equips the model with basic thinking ability. We then apply Group Relative Policy Optimization (GRPO) with clinically grounded, task-specific rewards for report generation and visual grounding, and run matched RL experiments on both domain-specific and general-domain Qwen3-VL variants, with and without thinking. Across these settings, we find that while strong SFT remains crucial for high base performance, RL provides additional gains on both tasks, whereas explicit thinking does not appear to further improve results. Under a unified evaluation pipeline, the RL-optimized RadVLM models outperform their baseline counterparts and reach state-of-the-art performance on both report generation and grounding, highlighting clinically aligned RL as a powerful complement to SFT for medical VLMs.


翻译:近期视觉-语言模型(VLMs)的进展在多个方面提升了胸部X光片(CXR)的解读能力。然而,许多医学VLMs仅依赖于监督微调(SFT),该方法优化下一词元预测而未评估回答质量。相比之下,强化学习(RL)能够整合任务特定的反馈,其与显式中间推理(“思考”)的结合已在可验证的数学与编程任务中展现出显著增益。为探究RL与思考在CXR VLM中的作用,我们在CXR数据上进行了大规模SFT,构建了基于Qwen3-VL的升级版RadVLM,随后通过冷启动SFT阶段赋予模型基础思考能力。接着,我们应用具有临床依据、任务特定奖励的组相对策略优化(GRPO)进行报告生成与视觉定位,并在具备与不具备思考能力的领域特定及通用领域Qwen3-VL变体上进行了匹配的RL实验。在这些设置中,我们发现尽管强大的SFT对于高基础性能仍至关重要,但RL在两项任务上均提供了额外增益,而显式思考并未进一步改善结果。在统一的评估流程下,经RL优化的RadVLM模型超越了其基线对应版本,并在报告生成与定位任务上达到了最先进的性能,凸显了临床对齐的RL作为医学VLMs中SFT的有力补充。

0
下载
关闭预览

相关内容

【CVPR2024】渐进式语义引导视觉变换器用于零样本学习
专知会员服务
19+阅读 · 2024年4月13日
ICLR'21 | GNN联邦学习的新基准
图与推荐
12+阅读 · 2021年11月15日
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
51+阅读 · 2014年12月31日
VIP会员
相关资讯
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
51+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员