推理是解决复杂多步问题的基础能力,特别是在视觉情境中,逐步理解至关重要。现有方法缺乏一个全面的框架来评估视觉推理,并且未能强调逐步问题解决。为此,我们提出了一个全面的框架,旨在通过三项关键贡献推动大语言模型(LLM)中的逐步视觉推理。
首先,我们介绍了一种视觉推理链基准,专门用于评估多步推理任务。该基准呈现了一组多样化的挑战,涵盖从复杂的视觉感知到科学推理的八个不同类别,共计超过4千个推理步骤,能够对LLM在多个步骤中执行准确且可解释的视觉推理能力进行稳健的评估。 其次,我们提出了一种新的指标,用于评估逐步推理的质量,侧重于每个步骤的正确性和逻辑一致性。与传统的最终任务准确度指标相比,所提出的指标提供了对推理性能更深入的洞察。 第三,我们提出了一种新的多模态视觉推理模型,命名为LlamaV-o1,采用多步课程学习方法进行训练,任务逐步组织,以促进技能的增量获取和问题解决。所提出的LlamaV-o1旨在进行多步推理,并通过结构化的训练范式逐步学习。大量实验表明,LlamaV-o1优于现有的开源模型,并在与封闭源专有模型的对比中表现出色。与最近的Llava-CoT相比,我们的LlamaV-o1在六个基准上取得了67.3的平均得分,绝对提升了3.8%,并且在推理扩展时比传统模型快5倍。我们的基准、模型和代码已公开发布。