推理是解决复杂多步问题的基础能力,特别是在视觉情境中,逐步理解至关重要。现有方法缺乏一个全面的框架来评估视觉推理,并且未能强调逐步问题解决。为此,我们提出了一个全面的框架,旨在通过三项关键贡献推动大语言模型(LLM)中的逐步视觉推理。

首先,我们介绍了一种视觉推理链基准,专门用于评估多步推理任务。该基准呈现了一组多样化的挑战,涵盖从复杂的视觉感知到科学推理的八个不同类别,共计超过4千个推理步骤,能够对LLM在多个步骤中执行准确且可解释的视觉推理能力进行稳健的评估。 其次,我们提出了一种新的指标,用于评估逐步推理的质量,侧重于每个步骤的正确性和逻辑一致性。与传统的最终任务准确度指标相比,所提出的指标提供了对推理性能更深入的洞察。 第三,我们提出了一种新的多模态视觉推理模型,命名为LlamaV-o1,采用多步课程学习方法进行训练,任务逐步组织,以促进技能的增量获取和问题解决。所提出的LlamaV-o1旨在进行多步推理,并通过结构化的训练范式逐步学习。大量实验表明,LlamaV-o1优于现有的开源模型,并在与封闭源专有模型的对比中表现出色。与最近的Llava-CoT相比,我们的LlamaV-o1在六个基准上取得了67.3的平均得分,绝对提升了3.8%,并且在推理扩展时比传统模型快5倍。我们的基准、模型和代码已公开发布。

成为VIP会员查看完整内容
10

相关内容

大型语言模型高效推理综述
专知会员服务
60+阅读 · 2024年4月23日
基于模型的强化学习综述
专知会员服务
48+阅读 · 2023年1月9日
【AAAI2023】MHCCL:多变量时间序列的掩蔽层次聚类对比学习
面向自然语言处理的知识图谱嵌入:从理论到实践
专知会员服务
52+阅读 · 2022年10月16日
专知会员服务
61+阅读 · 2021年5月28日
【ACL2020-密歇根州立大学】语言和视觉推理的跨模态关联
【CVPR2021】跨模态检索的概率嵌入
专知
17+阅读 · 2021年3月2日
初学者的 Keras:实现卷积神经网络
Python程序员
24+阅读 · 2019年9月8日
语义分割中的深度学习方法全解:从FCN、SegNet到DeepLab
炼数成金订阅号
26+阅读 · 2017年7月10日
MNIST入门:贝叶斯方法
Python程序员
23+阅读 · 2017年7月3日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
39+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Arxiv
162+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
423+阅读 · 2023年3月31日
Arxiv
69+阅读 · 2023年3月26日
Arxiv
152+阅读 · 2023年3月24日
Arxiv
21+阅读 · 2023年3月17日
VIP会员
相关VIP内容
大型语言模型高效推理综述
专知会员服务
60+阅读 · 2024年4月23日
基于模型的强化学习综述
专知会员服务
48+阅读 · 2023年1月9日
【AAAI2023】MHCCL:多变量时间序列的掩蔽层次聚类对比学习
面向自然语言处理的知识图谱嵌入:从理论到实践
专知会员服务
52+阅读 · 2022年10月16日
专知会员服务
61+阅读 · 2021年5月28日
【ACL2020-密歇根州立大学】语言和视觉推理的跨模态关联
相关资讯
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
39+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
微信扫码咨询专知VIP会员