LlamaV-o1: 重新思考大语言模型中的逐步视觉推理 - 专知VIP

会员服务 ·

3

LlamaV-o1 · 大语言模型 · 视觉推理 ·

LlamaV-o1: 重新思考大语言模型中的逐步视觉推理

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

推理是解决复杂多步问题的基础能力，特别是在视觉情境中，逐步理解至关重要。现有方法缺乏一个全面的框架来评估视觉推理，并且未能强调逐步问题解决。为此，我们提出了一个全面的框架，旨在通过三项关键贡献推动大语言模型（LLM）中的逐步视觉推理。

首先，我们介绍了一种视觉推理链基准，专门用于评估多步推理任务。该基准呈现了一组多样化的挑战，涵盖从复杂的视觉感知到科学推理的八个不同类别，共计超过4千个推理步骤，能够对LLM在多个步骤中执行准确且可解释的视觉推理能力进行稳健的评估。其次，我们提出了一种新的指标，用于评估逐步推理的质量，侧重于每个步骤的正确性和逻辑一致性。与传统的最终任务准确度指标相比，所提出的指标提供了对推理性能更深入的洞察。第三，我们提出了一种新的多模态视觉推理模型，命名为LlamaV-o1，采用多步课程学习方法进行训练，任务逐步组织，以促进技能的增量获取和问题解决。所提出的LlamaV-o1旨在进行多步推理，并通过结构化的训练范式逐步学习。大量实验表明，LlamaV-o1优于现有的开源模型，并在与封闭源专有模型的对比中表现出色。与最近的Llava-CoT相比，我们的LlamaV-o1在六个基准上取得了67.3的平均得分，绝对提升了3.8%，并且在推理扩展时比传统模型快5倍。我们的基准、模型和代码已公开发布。

成为VIP会员查看完整内容

10

相关内容

LlamaV-o1

【CVPR2024】自然监督下的三维视觉定位与语言规范化的概念学习

【CVPR2024】自然监督下的三维视觉定位与语言规范化的概念学习

专知会员服务

16+阅读 · 2024年5月1日

大型语言模型高效推理综述

大型语言模型高效推理综述

专知会员服务

60+阅读 · 2024年4月23日

【阿姆斯特丹博士论文】具结构不变性的表示学习,113页pdf

【阿姆斯特丹博士论文】具结构不变性的表示学习,113页pdf

专知会员服务

23+阅读 · 2024年3月5日

基于模型的强化学习综述

基于模型的强化学习综述

专知会员服务

48+阅读 · 2023年1月9日

【AAAI2023】MHCCL:多变量时间序列的掩蔽层次聚类对比学习

【AAAI2023】MHCCL:多变量时间序列的掩蔽层次聚类对比学习

专知会员服务

17+阅读 · 2022年12月9日

面向自然语言处理的知识图谱嵌入:从理论到实践

面向自然语言处理的知识图谱嵌入:从理论到实践

专知会员服务

52+阅读 · 2022年10月16日

【伯克利Kourosh博士论文】用于设计优化与控制的预训练智能体

【伯克利Kourosh博士论文】用于设计优化与控制的预训练智能体

专知会员服务

21+阅读 · 2022年5月7日

面向自然语言处理任务的预训练模型综述

专知会员服务

61+阅读 · 2021年5月28日

【ACL2020-密歇根州立大学】语言和视觉推理的跨模态关联

【ACL2020-密歇根州立大学】语言和视觉推理的跨模态关联

专知会员服务

56+阅读 · 2020年5月14日

【CVPR2020】从领域适应的角度重新思考长尾视觉识别的类平衡方法

【CVPR2020】从领域适应的角度重新思考长尾视觉识别的类平衡方法

专知会员服务

23+阅读 · 2020年4月12日

【CVPR2021】跨模态检索的概率嵌入

【CVPR2021】跨模态检索的概率嵌入

专知

17+阅读 · 2021年3月2日

【斯坦福CS520】向量空间中嵌入的知识图谱推理，48页ppt

【斯坦福CS520】向量空间中嵌入的知识图谱推理，48页ppt

专知

24+阅读 · 2020年6月11日

【CVPR2020-北京大学】自适应间隔损失的提升小样本学习

【CVPR2020-北京大学】自适应间隔损失的提升小样本学习

专知

12+阅读 · 2020年6月9日

【SIGIR2020-清华】知识图谱上的增强推荐推理

【SIGIR2020-清华】知识图谱上的增强推荐推理

专知

14+阅读 · 2020年5月30日

【CVPR2020-旷视】DPGN：分布传播图网络的小样本学习

【CVPR2020-旷视】DPGN：分布传播图网络的小样本学习

专知

12+阅读 · 2020年4月1日

【NeurIPS 2019】vGraph：联合节点检测与节点表示生成模型

【NeurIPS 2019】vGraph：联合节点检测与节点表示生成模型

专知

23+阅读 · 2019年12月21日

初学者的 Keras：实现卷积神经网络

初学者的 Keras：实现卷积神经网络

Python程序员

24+阅读 · 2019年9月8日

【论文读书笔记】重新考虑用简单神经网络进行知识表示学习（附代码）

【论文读书笔记】重新考虑用简单神经网络进行知识表示学习（附代码）

专知

14+阅读 · 2018年2月4日

语义分割中的深度学习方法全解：从FCN、SegNet到DeepLab

语义分割中的深度学习方法全解：从FCN、SegNet到DeepLab

炼数成金订阅号

26+阅读 · 2017年7月10日

MNIST入门：贝叶斯方法

MNIST入门：贝叶斯方法

Python程序员

23+阅读 · 2017年7月3日

图文混合跨媒体知识单元的模糊分类方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

T-S模糊神经网络的容错同步性分析

国家自然科学基金

0+阅读 · 2015年12月31日

基于自主学习的Ad hoc Agent序贯决策研究

国家自然科学基金

39+阅读 · 2015年12月31日

面向交互式问答的省略恢复技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

基于关系语义的空间场景信息理解

国家自然科学基金

5+阅读 · 2014年12月31日

复杂多元数据的半参数统计推断

国家自然科学基金

5+阅读 · 2014年12月31日

基于对合否定的SBL公理化扩张系统的程度化推理及逻辑控制研究

国家自然科学基金

0+阅读 · 2014年12月31日

Steklov特征值问题的自适应非协调有限元方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

一类极大加和逆优化问题的研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于贝叶斯推理的模糊逻辑强化学习模型研究

国家自然科学基金

18+阅读 · 2012年12月31日

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

162+阅读 · 2023年4月20日

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

36+阅读 · 2023年4月19日

A Survey on Graph Diffusion Models: Generative AI in Science for Molecule, Protein and Material

Arxiv

72+阅读 · 2023年4月4日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

423+阅读 · 2023年3月31日

Unleashing the Power of Edge-Cloud Generative AI in Mobile Networks: A Survey of AIGC Services

Arxiv

131+阅读 · 2023年3月29日

ChatGPT is a Knowledgeable but Inexperienced Solver: An Investigation of Commonsense Problem in Large Language Models

Arxiv

58+阅读 · 2023年3月29日

Nature Language Reasoning, A Survey

Arxiv

69+阅读 · 2023年3月26日

Knowledge Graphs: Opportunities and Challenges

Arxiv

152+阅读 · 2023年3月24日

Sparks of Artificial General Intelligence: Early experiments with GPT-4

Arxiv

45+阅读 · 2023年3月22日

Data-centric Artificial Intelligence: A Survey

Arxiv

21+阅读 · 2023年3月17日

VIP会员

相关主题

大语言模型

相关VIP内容

【CVPR2024】自然监督下的三维视觉定位与语言规范化的概念学习

【CVPR2024】自然监督下的三维视觉定位与语言规范化的概念学习

专知会员服务

16+阅读 · 2024年5月1日

大型语言模型高效推理综述

大型语言模型高效推理综述

专知会员服务

60+阅读 · 2024年4月23日

【阿姆斯特丹博士论文】具结构不变性的表示学习,113页pdf

【阿姆斯特丹博士论文】具结构不变性的表示学习,113页pdf

专知会员服务

23+阅读 · 2024年3月5日

基于模型的强化学习综述

基于模型的强化学习综述

专知会员服务

48+阅读 · 2023年1月9日

【AAAI2023】MHCCL:多变量时间序列的掩蔽层次聚类对比学习

【AAAI2023】MHCCL:多变量时间序列的掩蔽层次聚类对比学习

专知会员服务

17+阅读 · 2022年12月9日

面向自然语言处理的知识图谱嵌入:从理论到实践

面向自然语言处理的知识图谱嵌入:从理论到实践

专知会员服务

52+阅读 · 2022年10月16日

【伯克利Kourosh博士论文】用于设计优化与控制的预训练智能体

【伯克利Kourosh博士论文】用于设计优化与控制的预训练智能体

专知会员服务

21+阅读 · 2022年5月7日

面向自然语言处理任务的预训练模型综述

专知会员服务

61+阅读 · 2021年5月28日

【ACL2020-密歇根州立大学】语言和视觉推理的跨模态关联

【ACL2020-密歇根州立大学】语言和视觉推理的跨模态关联

专知会员服务

56+阅读 · 2020年5月14日

【CVPR2020】从领域适应的角度重新思考长尾视觉识别的类平衡方法

【CVPR2020】从领域适应的角度重新思考长尾视觉识别的类平衡方法

专知会员服务

23+阅读 · 2020年4月12日

热门VIP内容

开通专知VIP会员享更多权益服务

《数学与战争：关于军事模拟和兵棋推演的海军史研究》

《建模与仿真（M&S）国防政策 - 第 1 部分：指令》35页

人工智能革新国防兵棋推演：全面探索

《建模与仿真（M&S）国防政策 - 第 2 部分：指南》35页

相关资讯

【CVPR2021】跨模态检索的概率嵌入

【CVPR2021】跨模态检索的概率嵌入

专知

17+阅读 · 2021年3月2日

【斯坦福CS520】向量空间中嵌入的知识图谱推理，48页ppt

【斯坦福CS520】向量空间中嵌入的知识图谱推理，48页ppt

专知

24+阅读 · 2020年6月11日

【CVPR2020-北京大学】自适应间隔损失的提升小样本学习

【CVPR2020-北京大学】自适应间隔损失的提升小样本学习

专知

12+阅读 · 2020年6月9日

【SIGIR2020-清华】知识图谱上的增强推荐推理

【SIGIR2020-清华】知识图谱上的增强推荐推理

专知

14+阅读 · 2020年5月30日

【CVPR2020-旷视】DPGN：分布传播图网络的小样本学习

【CVPR2020-旷视】DPGN：分布传播图网络的小样本学习

专知

12+阅读 · 2020年4月1日

【NeurIPS 2019】vGraph：联合节点检测与节点表示生成模型

【NeurIPS 2019】vGraph：联合节点检测与节点表示生成模型

专知

23+阅读 · 2019年12月21日

初学者的 Keras：实现卷积神经网络

初学者的 Keras：实现卷积神经网络

Python程序员

24+阅读 · 2019年9月8日

【论文读书笔记】重新考虑用简单神经网络进行知识表示学习（附代码）

【论文读书笔记】重新考虑用简单神经网络进行知识表示学习（附代码）

专知

14+阅读 · 2018年2月4日

语义分割中的深度学习方法全解：从FCN、SegNet到DeepLab

语义分割中的深度学习方法全解：从FCN、SegNet到DeepLab

炼数成金订阅号

26+阅读 · 2017年7月10日

MNIST入门：贝叶斯方法

MNIST入门：贝叶斯方法

Python程序员

23+阅读 · 2017年7月3日

相关基金

图文混合跨媒体知识单元的模糊分类方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

T-S模糊神经网络的容错同步性分析

国家自然科学基金

0+阅读 · 2015年12月31日

基于自主学习的Ad hoc Agent序贯决策研究

国家自然科学基金

39+阅读 · 2015年12月31日

面向交互式问答的省略恢复技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

基于关系语义的空间场景信息理解

国家自然科学基金

5+阅读 · 2014年12月31日

复杂多元数据的半参数统计推断

国家自然科学基金

5+阅读 · 2014年12月31日

基于对合否定的SBL公理化扩张系统的程度化推理及逻辑控制研究

国家自然科学基金

0+阅读 · 2014年12月31日

Steklov特征值问题的自适应非协调有限元方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

一类极大加和逆优化问题的研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于贝叶斯推理的模糊逻辑强化学习模型研究

国家自然科学基金

18+阅读 · 2012年12月31日

相关论文

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

162+阅读 · 2023年4月20日

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

36+阅读 · 2023年4月19日

A Survey on Graph Diffusion Models: Generative AI in Science for Molecule, Protein and Material

Arxiv

72+阅读 · 2023年4月4日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

423+阅读 · 2023年3月31日

Unleashing the Power of Edge-Cloud Generative AI in Mobile Networks: A Survey of AIGC Services

Arxiv

131+阅读 · 2023年3月29日

ChatGPT is a Knowledgeable but Inexperienced Solver: An Investigation of Commonsense Problem in Large Language Models

Arxiv

58+阅读 · 2023年3月29日

Nature Language Reasoning, A Survey

Arxiv

69+阅读 · 2023年3月26日

Knowledge Graphs: Opportunities and Challenges

Arxiv

152+阅读 · 2023年3月24日

Sparks of Artificial General Intelligence: Early experiments with GPT-4

Arxiv

45+阅读 · 2023年3月22日

Data-centric Artificial Intelligence: A Survey

Arxiv

21+阅读 · 2023年3月17日

微信扫码咨询专知VIP会员