Multimodal Large Language Models (MLLMs) have achieved impressive progress in natural image reasoning, yet their potential in medical imaging remains underexplored, especially in clinical anatomical surgical images. Anatomy understanding tasks demand precise understanding and clinically coherent answers, which are difficult to achieve due to the complexity of medical data and the scarcity of high-quality expert annotations. These challenges limit the effectiveness of conventional Supervised Fine-Tuning (SFT) strategies. While recent work has demonstrated that Group Relative Policy Optimization (GRPO) can enhance reasoning in MLLMs without relying on large amounts of data, we find two weaknesses that hinder GRPO's reasoning performance in anatomy recognition: 1) knowledge cannot be effectively shared between different anatomical structures, resulting in uneven information gain and preventing the model from converging, and 2) the model quickly converges to a single reasoning path, suppressing the exploration of diverse strategies. To overcome these challenges, we propose two novel methods. First, we implement a progressive learning strategy called Anatomical Similarity Curriculum Learning by controlling question difficulty via the similarity of answer choices, enabling the model to master complex problems incrementally. Second, we utilize question augmentation referred to as Group Diversity Question Augmentation to expand the model's search space for difficult queries, mitigating the tendency to produce uniform responses. Comprehensive experiments on the SGG-VQA and OmniMedVQA benchmarks show our method achieves a significant improvement across the two benchmarks, demonstrating its effectiveness in enhancing the medical reasoning capabilities of MLLMs. The code can be found in https://github.com/tomato996/Anatomy-R1


翻译:多模态大语言模型(MLLMs)在自然图像推理方面取得了显著进展,但其在医学影像领域的潜力尚未得到充分挖掘,尤其是在临床解剖手术图像方面。解剖学理解任务要求精确的认知和临床连贯的答案,由于医学数据的复杂性以及高质量专家标注的稀缺性,这些目标难以实现。这些挑战限制了传统监督微调(SFT)策略的有效性。尽管近期研究表明,群体相对策略优化(GRPO)可以在不依赖大量数据的情况下增强MLLMs的推理能力,但我们发现两个弱点阻碍了GRPO在解剖学识别中的推理表现:1)不同解剖结构间的知识无法有效共享,导致信息增益不均并阻碍模型收敛;2)模型迅速收敛至单一推理路径,抑制了对多样化策略的探索。为克服这些挑战,我们提出了两种新方法。首先,我们实施了一种称为解剖相似性课程学习的渐进式学习策略,通过控制答案选项的相似度来调整问题难度,使模型能够逐步掌握复杂问题。其次,我们采用了一种称为群体多样性问题增强的问题增强方法,以扩展模型对困难查询的搜索空间,从而缓解其产生单一化响应的倾向。在SGG-VQA和OmniMedVQA基准测试上的全面实验表明,我们的方法在两个基准上均实现了显著提升,证明了其在增强MLLMs医学推理能力方面的有效性。代码可在 https://github.com/tomato996/Anatomy-R1 找到。

0
下载
关闭预览

相关内容

Python图像处理,366页pdf,Image Operators Image Processing in Python
论文浅尝 | GEOM-GCN: Geometric Graph Convolutional Networks
开放知识图谱
14+阅读 · 2020年4月8日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员