摘要——随着具有革命性意义的自主智能体系统的兴起,研究界正在经历一场显著的范式转变:从传统的静态、被动、领域特定的人工智能智能体,迈向更加动态、主动且具备泛化能力的智能体型人工智能(agentic AI)。 受智能体型人工智能的快速发展及其潜在通向通用人工智能(AGI)轨迹的启发,本文对智能体化多模态大语言模型(Agentic Multimodal Large Language Models,Agentic MLLMs)进行了全面综述。 在本综述中,我们探讨了智能体化 MLLMs 的新兴范式,阐明其概念基础,并从理论上区分其与传统基于 MLLM 的智能体的差异。我们提出了一个概念框架,将智能体化 MLLMs 的能力沿三个基本维度进行系统化组织: (i) 智能体内部智能(Agentic internal intelligence):作为系统的“指挥官”,通过推理、反思与记忆机制,实现精确的长时规划; (ii) 智能体外部工具调用(Agentic external tool invocation):模型能够主动调用多种外部工具,将问题求解能力扩展到其内在知识之外; (iii) 智能体环境交互(Agentic environment interaction):模型进一步被置于虚拟或物理环境中,使其能够采取行动、调整策略,并在动态的真实世界场景中维持目标导向的行为。 此外,为了进一步促进该领域的研究,我们整理了开源训练框架、训练与评测数据集,以支持智能体化 MLLMs 的开发。最后,本文回顾了智能体化 MLLMs 的下游应用,并展望了这一快速发展的研究方向的未来趋势。 为持续追踪该领域的最新进展,我们还在以下地址维护了一个持续更新的公共资源库: 🔗 https://github.com/HJYao00/Awesome-Agentic-MLLMs 关键词——智能体化多模态大语言模型(Agentic MLLMs),强化学习(Reinforcement Learning),推理(Reasoning),反思(Reflection),记忆(Memory),搜索(Search),代码(Code),图像思维(Thinking with images)
智能
多模态大语言模型(Multimodal Large Language Models, MLLMs)近年来取得了显著进展,使人工智能系统能够在多种模态之间进行感知、理解、推理与生成 [1–8]。凭借强大的指令跟随能力与跨模态泛化能力,MLLMs 已能应对广泛的任务范畴,在通用应用与专业场景中均展现出越来越高的价值 [9–14]。 然而,大多数传统的 MLLMs 仍然运行在查询–响应(query–response)范式下,即静态输入对应单一输出。这种范式对于复杂、动态的真实世界任务往往是不足的,因为此类任务需要具备三类关键能力: 1. 内部智能(internal intelligence):包括推理 [15–18]、反思 [19–20] 与记忆 [21–22]; 1. 外部工具调用(external tool invocation):包括信息检索 [23–24]、代码执行 [25–26] 与视觉处理 [27–29]; 1. 环境交互(environment interaction):包括虚拟具身 [30–31] 与物理具身 [32–33]。
为突破静态查询–响应交互的限制,研究者提出了MLLM 智能体(MLLM agents) [34–35],它们将 MLLMs 嵌入到结构化的工作流中,从而实现任务分解、情境化推理与外部工具集成 [36–41]。尽管此类方法在实践中取得了显著效果,但仍面临以下约束: 1. 静态工作流:依赖于预定义的、人工设计的流程,缺乏灵活性,难以适应新颖或动态环境; 1. 被动执行:多为被动响应指令,缺乏自主规划、工具调用或主动环境交互的智能; 1. 领域特定性:通常面向单一任务或领域,导致泛化能力差、可扩展性有限。
近年来,推理增强型 MLLMs [47, 61, 182, 183] 与强化学习(Reinforcement Learning, RL) [184–187] 的进展推动了从“基于工作流的 MLLM 智能体”向“智能体化多模态大语言模型(Agentic MLLMs)”的范式转变。与传统智能体不同,智能体化 MLLMs [24, 160, 161, 163, 188, 189] 被定义为自主决策体(autonomous decision-makers),具备内生的智能体能力,即在推理、反思、记忆、工具使用与环境交互等方面拥有自治性。 基于此,智能体化 MLLMs 具有以下三方面关键优势: (1) 动态策略调整:不依赖静态、预定义的流程,而是基于先前规划、当前状态及预期环境交互动态调整策略与工作流; (2) 主动行动执行:可自主发起计划、在需要时主动调用工具,并通过反思中间结果改进后续步骤; (3) 跨任务泛化能力:能够在多样化任务与环境中运行,实现通用建模与学习,而非局限于狭窄的领域特定应用。 这一转变标志着智能体化 MLLMs 不仅具备了自适应规划、主动工具调用与动态环境交互的能力,更代表了人工智能迈向通用自主智能体(general-purpose autonomous agents)的重要阶段。 尽管智能体化 MLLMs 已引起学术界的广泛关注,但目前研究社区仍缺乏一份系统性综述来梳理现有进展、总结核心挑战并指明未来方向。为填补这一空白,本文从以下三大核心组成部分出发,对智能体化 MLLMs 进行系统性回顾: * 智能体内部智能(Agentic Internal Intelligence); * 智能体外部工具调用(Agentic External Tool Invocation); * 智能体环境交互(Agentic Environment Interaction)。
本综述从多个视角展开,包括理论讨论、基础概念、技术方法、训练与评测资源,以及未来研究方向。我们期望本文能为研究者提供当前成果的全面概览,并为该领域的进一步发展提供清晰路径。 综上,本文的主要贡献可归纳为三点: 1. 系统回顾与分类:首次系统梳理智能体化 MLLMs 的发展脉络,并根据任务类型对现有研究进行全面分类与总结; 1. 最新进展汇总:总结智能体化 MLLMs 的最新方法学进展及训练与评测资源,并提供相应链接以便参考; 1. 研究挑战与前沿方向:提出若干值得探索的未来研究挑战与潜在研究方向。
为此,本文的整体结构如图 1 所示。其余部分安排如下: 第 2 节讨论 MLLM 智能体与智能体化 MLLMs 的关系; 第 3 节介绍智能体化 MLLMs 的基础概念,包括基础模型、智能体动作空间、训练与评测机制; 第 4 节回顾并分类现有智能体化 MLLMs 研究,涵盖内部智能、外部工具调用与环境交互三个方面; 第 5 节总结智能体化 MLLMs 的常用训练框架及相关数据集; 第 6 节介绍其在深度研究(DeepResearch)、具身智能(Embodied AI)、医疗健康、图形用户界面智能体(GUI Agents)、自动驾驶及推荐系统等领域的应用; 最后,第 7 节展望智能体化 MLLMs 的若干未来研究方向。