视觉语言模型(VLMs)最近已经展示出了强大的效能,作为可以解析关于视觉内容的自然查询并生成类似人类输出的视觉助手。在这项工作中,我们探讨了这些模型基于感知信息展示人类式推理的能力。为了解决一个关键问题,即这些推理能力在多大程度上是完全一致和基于实际的,我们还测量了这些模型的推理一致性。我们通过提出基于思维链(CoT)的一致性度量来实现这一点。然而,这样的评估需要一个包括高级推理和详细推理链的基准,这是昂贵的。我们通过提出一个LLM-人在回路中的管道来解决这一挑战,这显著降低了成本,同时确保了高质量数据集的生成。基于这个管道和现有的粗粒度注释数据集,我们构建了CURE基准,以测量VLMs的零样本推理性能和一致性。我们评估了现有的最先进的VLMs,并发现即使在表现最佳的模型(BLIP-2)的情况下,也无法展示出强大的视觉推理能力和一致性,这表明需要大力努力,使VLMs能够像人类一样系统地和一致地进行视觉推理。作为早期步骤,我们提出了一个旨在提高VLMs的推理性能和一致性的两阶段培训框架。第一阶段涉及使用由LLMs自动生成的逐步推理样本对VLMs进行监督微调。在第二阶段中,我们进一步通过LLMs提供的反馈来增强训练过程,以生成高度一致和基于实际的推理链。我们经验性地突出了我们框架的有效性,并显示了在推理性能和一致性方面的相对改进为4%。
https://www.zhuanzhi.ai/paper/7973da2bc3cb888154e7d2c0ed548c64