大型多模态模型(LMMs)在视觉理解和推理方面取得了令人瞩目的成功,显著提高了视觉环境中数学推理的性能。然而,在视觉数学中存在一种具有挑战性的类型——多模态图论问题,这要求LMMs准确理解图形结构并对视觉图进行多步骤推理。为了在这方面向前迈进,我们是第一个设计了一个名为VisionGraph的基准,用于探索先进LMMs解决多模态图论问题的能力。它包括八个复杂的图问题任务,从连通性到最短路径问题。随后,我们提出了一个描述-程序-推理(DPR)链,通过图形结构描述生成和算法意识的多步推理来增强推理过程的逻辑准确性。我们的广泛研究表明:1)GPT-4V在多步图推理方面胜过Gemini Pro;2)所有LMMs对图形结构的感知精度不高,无论是在零/少次学习设置还是在有监督的微调(SFT)中,这进一步影响了问题解决性能;3)DPR显著提高了LMMs的多步图推理能力,而GPT-4V(DPR)代理达到了SOTA性能。