随着多模态大语言模型(MLLMs)在感知任务中取得显著成功,提升其复杂推理能力已成为关键的研究焦点。现有模型仍然面临诸多挑战,如推理路径不透明以及泛化能力不足。思维链(Chain-of-Thought, CoT)推理已在语言模型中展现出显著成效,可提升推理透明性和输出可解释性;将其扩展至多模态领域有望进一步增强模型的推理能力。本文围绕“多模态思维链”(Multimodal Chain-of-Thought, MCoT)提供了一份系统性综述。首先,从技术演进与任务需求的角度分析了其产生的背景与理论动机。随后,从三个方面介绍主流的 MCoT 方法:思维链范式、后训练阶段以及推理阶段,并分析其内在机制。此外,本文总结了现有的评测基准与评价指标,并讨论了 MCoT 的应用场景。最后,本文分析了当前 MCoT 面临的挑战,并对其未来研究方向进行展望。
在海量数据与强大计算资源的支撑下,多模态大语言模型(Multimodal Large Language Models, MLLMs)近年来在跨模态内容(如文本、图像、视频)的理解与生成方面取得了显著进展(Kim et al., 2021; Li et al., 2021; 2022; Yu et al., 2022; Wang et al., 2023b; Chen et al., 2023; Li et al., 2023a; Wang et al., 2023a; Bai et al., 2025; Zhang et al., 2023a; Liu et al., 2023b; Lu et al., 2024; Dong et al., 2023; Lin et al., 2024; Yin et al., 2023; Caffagni et al., 2024; Zhang et al., 2024b)。它们已被广泛应用于图像描述(Image Captioning)、视觉问答(VQA)(Antol et al., 2015)、视频描述(Video Captioning)(Venugopalan et al., 2015)等任务。尽管在感知与生成方面表现出色,MLLMs 在处理复杂推理任务时仍表现出明显不足(Ghaffari & Krishnaswamy, 2024; Małkinski et al., 2024; Shiri et al., 2024; Imam et al., 2025)。具体而言,当前 MLLMs 主要依赖隐式推理,即基于训练数据中的统计模式进行预测(Bai et al., 2024; Wang et al., 2025f),而缺乏显式、可解释的中间推理步骤。因此,它们在多步逻辑推理、因果推理以及组合式泛化方面受到限制(Lu et al., 2022; Li et al., 2025c)。
为应对大语言模型(LLMs)中的类似问题,研究者提出了思维链(Chain-of-Thought, CoT)推理机制(Wei et al., 2022; Kojima et al., 2022; Wang et al., 2022),旨在增强其逻辑推理能力。思维链的核心思想是将复杂问题分解为一系列显式的中间推理步骤,从而模拟人类逐步构建逻辑链的过程。这一方法在算术、常识和逻辑推理任务中表现出了显著优势,同时提升了模型决策的可解释性与透明性(Huang & Chang, 2022; Chu et al., 2024; Xia et al., 2025b)。在 LLM 领域,诸如 OpenAI o1 和 DeepSeek-R1(Guo et al., 2025)等代表性模型已整合思维链策略,在数学与逻辑推理任务上实现了重要突破,有效推动了 LLM 推理能力的发展。
受这一成功范式的启发,研究者近年来开始探索将思维链推理扩展至 MLLMs,催生了基于思维链的多模态大语言模型(CoT-MLLMs)(Zhang et al., 2023c; Chen et al., 2024c)。这一新兴范式旨在将结构化推理步骤嵌入多模态建模框架,使模型在处理视觉、语言等模态时能够执行更高层次的跨模态逻辑推理。通过这种方式,CoT-MLLMs 能够捕获跨模态的深层语义关联,从而提升整体推理性能和可解释性(Bi et al., 2025; Lin et al., 2025d; Chen et al., 2025a)。与仅处理单一文本模态的 LLMs 不同,增强 MLLMs 的推理能力需要同时处理多模态信息,因此在跨模态构建有效的思维链成为关键挑战。这不仅涉及跨模态信息对齐,还需要构建支持深层跨模态推理的层次化推理结构。
为综合当前研究进展,已有多篇综述(Wang et al., 2025f; Bi et al., 2025; Li et al., 2025c)为研究者提供了整体视角。在前人工作的基础上,本文试图从更具差异化的视角切入,更加侧重深入的理论分析。不同于现有主要聚焦于技术方法总结的研究,本文的核心贡献在于进一步分析与讨论 MCoT 提升模型推理能力的内在机制,从而回答“为什么它有效”这一关键问题。此外,在评测体系、挑战与未来方向等部分,本文提供了更系统的分类与总结。综上所述,本综述系统梳理了 CoT-MLLMs 领域的最新研究进展,涵盖其核心方法、评测基准与指标、典型应用场景,以及面临的挑战与未来发展方向。我们希望本文的洞察与总结能够为这一新兴研究方向提供结构化参考与理论基础,从而促进该领域的持续发展。