大型多模态模型(LMMs)在视觉理解和推理方面取得了令人瞩目的成功,显著提高了视觉环境中数学推理的性能。然而,在视觉数学中存在一种具有挑战性的类型——多模态图论问题,这要求LMMs准确理解图形结构并对视觉图进行多步骤推理。为了在这方面向前迈进,我们是第一个设计了一个名为VisionGraph的基准,用于探索先进LMMs解决多模态图论问题的能力。它包括八个复杂的图问题任务,从连通性到最短路径问题。随后,我们提出了一个描述-程序-推理(DPR)链,通过图形结构描述生成和算法意识的多步推理来增强推理过程的逻辑准确性。我们的广泛研究表明:1)GPT-4V在多步图推理方面胜过Gemini Pro;2)所有LMMs对图形结构的感知精度不高,无论是在零/少次学习设置还是在有监督的微调(SFT)中,这进一步影响了问题解决性能;3)DPR显著提高了LMMs的多步图推理能力,而GPT-4V(DPR)代理达到了SOTA性能。

成为VIP会员查看完整内容
26

相关内容

【NeurIPS2023】大型语言模型是视觉推理协调器
专知会员服务
29+阅读 · 2023年10月24日
【NeurIPS2023】将持续学习重新定义为序列建模
专知会员服务
33+阅读 · 2023年10月19日
【CVPR2023】GeoLayoutLM:视觉信息提取的几何预训练
专知会员服务
30+阅读 · 2023年4月25日
专知会员服务
36+阅读 · 2021年6月3日
【SIGIR2021】基于嵌入的增量式时序知识图谱补全框架
专知会员服务
61+阅读 · 2021年4月21日
【CVPR2021】跨模态检索的概率嵌入
专知
17+阅读 · 2021年3月2日
【KDD2020】图神经网络生成式预训练
专知
22+阅读 · 2020年7月3日
国家自然科学基金
7+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
36+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
155+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
395+阅读 · 2023年3月31日
Arxiv
66+阅读 · 2023年3月26日
Arxiv
19+阅读 · 2023年3月17日
VIP会员
相关VIP内容
【NeurIPS2023】大型语言模型是视觉推理协调器
专知会员服务
29+阅读 · 2023年10月24日
【NeurIPS2023】将持续学习重新定义为序列建模
专知会员服务
33+阅读 · 2023年10月19日
【CVPR2023】GeoLayoutLM:视觉信息提取的几何预训练
专知会员服务
30+阅读 · 2023年4月25日
专知会员服务
36+阅读 · 2021年6月3日
【SIGIR2021】基于嵌入的增量式时序知识图谱补全框架
专知会员服务
61+阅读 · 2021年4月21日
相关基金
国家自然科学基金
7+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
36+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员