Reasoning-augmented vision language models (VLMs) generate explicit chains of thought that promise greater capability and transparency but also introduce new failure modes: models may reach correct answers via visually unfaithful intermediate steps, or reason faithfully yet fail on the final prediction. Standard evaluations that only measure final-answer accuracy cannot distinguish these behaviors. We introduce the visual faithfulness of reasoning chains as a distinct evaluation dimension, focusing on whether the perception steps of a reasoning chain are grounded in the image. We propose a training- and reference-free framework that decomposes chains into perception versus reasoning steps and uses off-the-shelf VLM judges for step-level faithfulness, additionally verifying this approach through a human meta-evaluation. Building on this metric, we present a lightweight self-reflection procedure that detects and locally regenerates unfaithful perception steps without any training. Across multiple reasoning-trained VLMs and perception-heavy benchmarks, our method reduces Unfaithful Perception Rate while preserving final-answer accuracy, improving the reliability of multimodal reasoning.


翻译:推理增强型视觉语言模型(VLMs)通过生成显式的思维链,承诺提供更强的能力和透明度,但也引入了新的失效模式:模型可能通过视觉上不忠实的中间步骤得出正确答案,或者进行忠实推理却在最终预测上失败。仅衡量最终答案准确性的标准评估无法区分这些行为。我们引入推理链的视觉忠实性作为一个独立的评估维度,重点关注推理链的感知步骤是否基于图像。我们提出一个无需训练和参考的框架,将思维链分解为感知步骤与推理步骤,并利用现成的VLM评判器进行步骤级忠实性评估,同时通过人工元评估验证该方法。基于此度量,我们提出一种轻量级自反思程序,无需任何训练即可检测并局部重生成不忠实的感知步骤。在多个经过推理训练的VLM和感知密集型基准测试中,我们的方法在保持最终答案准确性的同时降低了不忠实感知率,从而提升了多模态推理的可靠性。

0
下载
关闭预览

相关内容

图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
【NeurIPS2019】图变换网络:Graph Transformer Network
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员