Multimodal Large Language Models (MLLMs) have achieved impressive performances in mathematical reasoning, yet they remain vulnerable to visual hallucinations and logical inconsistencies that standard outcome-based supervision fails to mitigate. While Process Reward Models (PRMs) promise step-by-step verification, current approaches typically operate as scalar scorers or generative critics that suffer from sycophancy, blindly validating the flawed hypotheses rather than grounding them in visual reality. To bridge this gap, we introduce TIM-PRM (Tool-Integrated Multimodal PRM), a novel agentic framework that transforms verification from a passive classification task into an active, tool-augmented investigation. TIM-PRM is trained to explicitly plan verification strategies and utilizes a mechanism of Independent Question Asking to query evidence via external tools, effectively decoupling verification from the reasoning context to eliminate confirmation bias. We instantiate this method by curating a high-quality dataset of tool-integrated verification trajectories. Extensive experiments on VisualProcessBench demonstrate that our 8B parameter model surpasses existing open-source multimodal PRMs, significantly outperforming much larger models like Qwen2.5-72B and InternVL-78B, while offering interpretable insights into the verification process.


翻译:多模态大语言模型在数学推理任务中已展现出令人瞩目的性能,但其仍易受视觉幻觉和逻辑不一致性的影响,而基于结果的传统监督方法难以缓解这些问题。过程奖励模型虽承诺提供逐步验证,但现有方法通常仅作为标量评分器或生成式评判器,易陷入盲从缺陷,即盲目认可存在瑕疵的假设而非将其锚定于视觉现实。为弥合这一差距,我们提出了TIM-PRM(工具集成多模态过程奖励模型),这是一种新型智能体框架,将验证从被动分类任务转化为主动的、工具增强的探究过程。TIM-PRM被训练为显式规划验证策略,并采用独立提问机制通过外部工具查询证据,有效解耦验证与推理语境以消除确认偏误。我们通过构建高质量的工具集成验证轨迹数据集实现了该方法。在VisualProcessBench上的大量实验表明,我们的80亿参数模型超越了现有开源多模态PRM,显著优于Qwen2.5-720亿和InternVL-780亿等更大规模模型,同时为验证过程提供了可解释的洞察。

0
下载
关闭预览

相关内容

【AAAI2024】面向序列推荐的插件扩散模型
专知会员服务
27+阅读 · 2024年1月9日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 2025年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员