智能体化多模态大语言模型综述

摘要——随着具有革命性意义的自主智能体系统的兴起，研究界正在经历一场显著的范式转变：从传统的静态、被动、领域特定的人工智能智能体，迈向更加动态、主动且具备泛化能力的智能体型人工智能（agentic AI）。受智能体型人工智能的快速发展及其潜在通向通用人工智能（AGI）轨迹的启发，本文对智能体化多模态大语言模型（Agentic Multimodal Large Language Models，Agentic MLLMs）进行了全面综述。在本综述中，我们探讨了智能体化 MLLMs 的新兴范式，阐明其概念基础，并从理论上区分其与传统基于 MLLM 的智能体的差异。我们提出了一个概念框架，将智能体化 MLLMs 的能力沿三个基本维度进行系统化组织： (i) 智能体内部智能（Agentic internal intelligence）：作为系统的“指挥官”，通过推理、反思与记忆机制，实现精确的长时规划； (ii) 智能体外部工具调用（Agentic external tool invocation）：模型能够主动调用多种外部工具，将问题求解能力扩展到其内在知识之外； (iii) 智能体环境交互（Agentic environment interaction）：模型进一步被置于虚拟或物理环境中，使其能够采取行动、调整策略，并在动态的真实世界场景中维持目标导向的行为。此外，为了进一步促进该领域的研究，我们整理了开源训练框架、训练与评测数据集，以支持智能体化 MLLMs 的开发。最后，本文回顾了智能体化 MLLMs 的下游应用，并展望了这一快速发展的研究方向的未来趋势。为持续追踪该领域的最新进展，我们还在以下地址维护了一个持续更新的公共资源库： 🔗 https://github.com/HJYao00/Awesome-Agentic-MLLMs 关键词——智能体化多模态大语言模型（Agentic MLLMs），强化学习（Reinforcement Learning），推理（Reasoning），反思（Reflection），记忆（Memory），搜索（Search），代码（Code），图像思维（Thinking with images）

智能

1 引言

多模态大语言模型（Multimodal Large Language Models, MLLMs）近年来取得了显著进展，使人工智能系统能够在多种模态之间进行感知、理解、推理与生成 [1–8]。凭借强大的指令跟随能力与跨模态泛化能力，MLLMs 已能应对广泛的任务范畴，在通用应用与专业场景中均展现出越来越高的价值 [9–14]。然而，大多数传统的 MLLMs 仍然运行在查询–响应（query–response）范式下，即静态输入对应单一输出。这种范式对于复杂、动态的真实世界任务往往是不足的，因为此类任务需要具备三类关键能力： 1. 内部智能（internal intelligence）：包括推理 [15–18]、反思 [19–20] 与记忆 [21–22]； 1. 外部工具调用（external tool invocation）：包括信息检索 [23–24]、代码执行 [25–26] 与视觉处理 [27–29]； 1. 环境交互（environment interaction）：包括虚拟具身 [30–31] 与物理具身 [32–33]。

为突破静态查询–响应交互的限制，研究者提出了MLLM 智能体（MLLM agents） [34–35]，它们将 MLLMs 嵌入到结构化的工作流中，从而实现任务分解、情境化推理与外部工具集成 [36–41]。尽管此类方法在实践中取得了显著效果，但仍面临以下约束： 1. 静态工作流：依赖于预定义的、人工设计的流程，缺乏灵活性，难以适应新颖或动态环境； 1. 被动执行：多为被动响应指令，缺乏自主规划、工具调用或主动环境交互的智能； 1. 领域特定性：通常面向单一任务或领域，导致泛化能力差、可扩展性有限。

近年来，推理增强型 MLLMs [47, 61, 182, 183] 与强化学习（Reinforcement Learning, RL） [184–187] 的进展推动了从“基于工作流的 MLLM 智能体”向“智能体化多模态大语言模型（Agentic MLLMs）”的范式转变。与传统智能体不同，智能体化 MLLMs [24, 160, 161, 163, 188, 189] 被定义为自主决策体（autonomous decision-makers），具备内生的智能体能力，即在推理、反思、记忆、工具使用与环境交互等方面拥有自治性。基于此，智能体化 MLLMs 具有以下三方面关键优势： (1) 动态策略调整：不依赖静态、预定义的流程，而是基于先前规划、当前状态及预期环境交互动态调整策略与工作流； (2) 主动行动执行：可自主发起计划、在需要时主动调用工具，并通过反思中间结果改进后续步骤； (3) 跨任务泛化能力：能够在多样化任务与环境中运行，实现通用建模与学习，而非局限于狭窄的领域特定应用。这一转变标志着智能体化 MLLMs 不仅具备了自适应规划、主动工具调用与动态环境交互的能力，更代表了人工智能迈向通用自主智能体（general-purpose autonomous agents）的重要阶段。尽管智能体化 MLLMs 已引起学术界的广泛关注，但目前研究社区仍缺乏一份系统性综述来梳理现有进展、总结核心挑战并指明未来方向。为填补这一空白，本文从以下三大核心组成部分出发，对智能体化 MLLMs 进行系统性回顾： * 智能体内部智能（Agentic Internal Intelligence）； * 智能体外部工具调用（Agentic External Tool Invocation）； * 智能体环境交互（Agentic Environment Interaction）。

本综述从多个视角展开，包括理论讨论、基础概念、技术方法、训练与评测资源，以及未来研究方向。我们期望本文能为研究者提供当前成果的全面概览，并为该领域的进一步发展提供清晰路径。综上，本文的主要贡献可归纳为三点： 1. 系统回顾与分类：首次系统梳理智能体化 MLLMs 的发展脉络，并根据任务类型对现有研究进行全面分类与总结； 1. 最新进展汇总：总结智能体化 MLLMs 的最新方法学进展及训练与评测资源，并提供相应链接以便参考； 1. 研究挑战与前沿方向：提出若干值得探索的未来研究挑战与潜在研究方向。

为此，本文的整体结构如图 1 所示。其余部分安排如下：第 2 节讨论 MLLM 智能体与智能体化 MLLMs 的关系；第 3 节介绍智能体化 MLLMs 的基础概念，包括基础模型、智能体动作空间、训练与评测机制；第 4 节回顾并分类现有智能体化 MLLMs 研究，涵盖内部智能、外部工具调用与环境交互三个方面；第 5 节总结智能体化 MLLMs 的常用训练框架及相关数据集；第 6 节介绍其在深度研究（DeepResearch）、具身智能（Embodied AI）、医疗健康、图形用户界面智能体（GUI Agents）、自动驾驶及推荐系统等领域的应用；最后，第 7 节展望智能体化 MLLMs 的若干未来研究方向。