摘要——随着具有革命性意义的自主智能体系统的兴起,研究界正在经历一场显著的范式转变:从传统的静态、被动、领域特定的人工智能智能体,迈向更加动态、主动且具备泛化能力的智能体型人工智能(agentic AI)。 受智能体型人工智能的快速发展及其潜在通向通用人工智能(AGI)轨迹的启发,本文对智能体化多模态大语言模型(Agentic Multimodal Large Language Models,Agentic MLLMs)进行了全面综述。 在本综述中,我们探讨了智能体化 MLLMs 的新兴范式,阐明其概念基础,并从理论上区分其与传统基于 MLLM 的智能体的差异。我们提出了一个概念框架,将智能体化 MLLMs 的能力沿三个基本维度进行系统化组织: (i) 智能体内部智能(Agentic internal intelligence):作为系统的“指挥官”,通过推理、反思与记忆机制,实现精确的长时规划; (ii) 智能体外部工具调用(Agentic external tool invocation):模型能够主动调用多种外部工具,将问题求解能力扩展到其内在知识之外; (iii) 智能体环境交互(Agentic environment interaction):模型进一步被置于虚拟或物理环境中,使其能够采取行动、调整策略,并在动态的真实世界场景中维持目标导向的行为。 此外,为了进一步促进该领域的研究,我们整理了开源训练框架训练与评测数据集,以支持智能体化 MLLMs 的开发。最后,本文回顾了智能体化 MLLMs 的下游应用,并展望了这一快速发展的研究方向的未来趋势。 为持续追踪该领域的最新进展,我们还在以下地址维护了一个持续更新的公共资源库: 🔗 https://github.com/HJYao00/Awesome-Agentic-MLLMs 关键词——智能体化多模态大语言模型(Agentic MLLMs),强化学习(Reinforcement Learning),推理(Reasoning),反思(Reflection),记忆(Memory),搜索(Search),代码(Code),图像思维(Thinking with images)

智能

1 引言

多模态大语言模型(Multimodal Large Language Models, MLLMs)近年来取得了显著进展,使人工智能系统能够在多种模态之间进行感知、理解、推理与生成 [1–8]。凭借强大的指令跟随能力跨模态泛化能力,MLLMs 已能应对广泛的任务范畴,在通用应用与专业场景中均展现出越来越高的价值 [9–14]。 然而,大多数传统的 MLLMs 仍然运行在查询–响应(query–response)范式下,即静态输入对应单一输出。这种范式对于复杂、动态的真实世界任务往往是不足的,因为此类任务需要具备三类关键能力: 1. 内部智能(internal intelligence):包括推理 [15–18]、反思 [19–20] 与记忆 [21–22]; 1. 外部工具调用(external tool invocation):包括信息检索 [23–24]、代码执行 [25–26] 与视觉处理 [27–29]; 1. 环境交互(environment interaction):包括虚拟具身 [30–31] 与物理具身 [32–33]。

为突破静态查询–响应交互的限制,研究者提出了MLLM 智能体(MLLM agents) [34–35],它们将 MLLMs 嵌入到结构化的工作流中,从而实现任务分解、情境化推理与外部工具集成 [36–41]。尽管此类方法在实践中取得了显著效果,但仍面临以下约束: 1. 静态工作流:依赖于预定义的、人工设计的流程,缺乏灵活性,难以适应新颖或动态环境; 1. 被动执行:多为被动响应指令,缺乏自主规划、工具调用或主动环境交互的智能; 1. 领域特定性:通常面向单一任务或领域,导致泛化能力差、可扩展性有限。

近年来,推理增强型 MLLMs [47, 61, 182, 183] 与强化学习(Reinforcement Learning, RL) [184–187] 的进展推动了从“基于工作流的 MLLM 智能体”向“智能体化多模态大语言模型(Agentic MLLMs)”的范式转变。与传统智能体不同,智能体化 MLLMs [24, 160, 161, 163, 188, 189] 被定义为自主决策体(autonomous decision-makers),具备内生的智能体能力,即在推理、反思、记忆、工具使用与环境交互等方面拥有自治性。 基于此,智能体化 MLLMs 具有以下三方面关键优势: (1) 动态策略调整:不依赖静态、预定义的流程,而是基于先前规划、当前状态及预期环境交互动态调整策略与工作流; (2) 主动行动执行:可自主发起计划、在需要时主动调用工具,并通过反思中间结果改进后续步骤; (3) 跨任务泛化能力:能够在多样化任务与环境中运行,实现通用建模与学习,而非局限于狭窄的领域特定应用。 这一转变标志着智能体化 MLLMs 不仅具备了自适应规划、主动工具调用与动态环境交互的能力,更代表了人工智能迈向通用自主智能体(general-purpose autonomous agents)的重要阶段。 尽管智能体化 MLLMs 已引起学术界的广泛关注,但目前研究社区仍缺乏一份系统性综述来梳理现有进展、总结核心挑战并指明未来方向。为填补这一空白,本文从以下三大核心组成部分出发,对智能体化 MLLMs 进行系统性回顾: * 智能体内部智能(Agentic Internal Intelligence); * 智能体外部工具调用(Agentic External Tool Invocation); * 智能体环境交互(Agentic Environment Interaction)

本综述从多个视角展开,包括理论讨论、基础概念、技术方法、训练与评测资源,以及未来研究方向。我们期望本文能为研究者提供当前成果的全面概览,并为该领域的进一步发展提供清晰路径。 综上,本文的主要贡献可归纳为三点: 1. 系统回顾与分类:首次系统梳理智能体化 MLLMs 的发展脉络,并根据任务类型对现有研究进行全面分类与总结; 1. 最新进展汇总:总结智能体化 MLLMs 的最新方法学进展及训练与评测资源,并提供相应链接以便参考; 1. 研究挑战与前沿方向:提出若干值得探索的未来研究挑战与潜在研究方向。

为此,本文的整体结构如图 1 所示。其余部分安排如下: 第 2 节讨论 MLLM 智能体与智能体化 MLLMs 的关系; 第 3 节介绍智能体化 MLLMs 的基础概念,包括基础模型、智能体动作空间、训练与评测机制; 第 4 节回顾并分类现有智能体化 MLLMs 研究,涵盖内部智能、外部工具调用与环境交互三个方面; 第 5 节总结智能体化 MLLMs 的常用训练框架及相关数据集; 第 6 节介绍其在深度研究(DeepResearch)、具身智能(Embodied AI)、医疗健康、图形用户界面智能体(GUI Agents)、自动驾驶及推荐系统等领域的应用; 最后,第 7 节展望智能体化 MLLMs 的若干未来研究方向。

成为VIP会员查看完整内容
1

相关内容

专门化大型语言模型综述
专知会员服务
31+阅读 · 8月28日
重建四维空间智能:综述
专知会员服务
21+阅读 · 7月29日
联邦图学习的全面数据中心化综述
专知会员服务
23+阅读 · 7月23日
视觉语言模型泛化到新领域:全面综述
专知会员服务
36+阅读 · 6月27日
视觉中的生成物理人工智能:综述
专知会员服务
36+阅读 · 1月26日
迈向可解释和可理解的多模态大规模语言模型
专知会员服务
38+阅读 · 2024年12月7日
《多模态对齐与融合》综述
专知会员服务
91+阅读 · 2024年11月27日
大语言模型视角下的智能规划方法综述
专知会员服务
133+阅读 · 2024年4月20日
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
【综述】多智能体强化学习算法理论研究
深度强化学习实验室
15+阅读 · 2020年9月9日
【长文综述】基于图神经网络的知识图谱研究进展
深度学习自然语言处理
15+阅读 · 2020年8月23日
层级强化学习概念简介
CreateAMind
19+阅读 · 2019年6月9日
【综述】生成式对抗网络GAN最新进展综述
专知
61+阅读 · 2019年6月5日
深度学习人体姿态估计算法综述
AI前线
24+阅读 · 2019年5月19日
基于深度学习的目标检测算法综述
AI研习社
15+阅读 · 2018年4月25日
CNN 模型压缩与加速算法综述
机器学习研究会
16+阅读 · 2017年8月25日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
45+阅读 · 2015年12月31日
国家自然科学基金
25+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2013年12月31日
Arxiv
171+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
484+阅读 · 2023年3月31日
Arxiv
79+阅读 · 2023年3月26日
Arxiv
175+阅读 · 2023年3月24日
Arxiv
25+阅读 · 2023年3月17日
VIP会员
相关VIP内容
专门化大型语言模型综述
专知会员服务
31+阅读 · 8月28日
重建四维空间智能:综述
专知会员服务
21+阅读 · 7月29日
联邦图学习的全面数据中心化综述
专知会员服务
23+阅读 · 7月23日
视觉语言模型泛化到新领域:全面综述
专知会员服务
36+阅读 · 6月27日
视觉中的生成物理人工智能:综述
专知会员服务
36+阅读 · 1月26日
迈向可解释和可理解的多模态大规模语言模型
专知会员服务
38+阅读 · 2024年12月7日
《多模态对齐与融合》综述
专知会员服务
91+阅读 · 2024年11月27日
大语言模型视角下的智能规划方法综述
专知会员服务
133+阅读 · 2024年4月20日
相关资讯
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
【综述】多智能体强化学习算法理论研究
深度强化学习实验室
15+阅读 · 2020年9月9日
【长文综述】基于图神经网络的知识图谱研究进展
深度学习自然语言处理
15+阅读 · 2020年8月23日
层级强化学习概念简介
CreateAMind
19+阅读 · 2019年6月9日
【综述】生成式对抗网络GAN最新进展综述
专知
61+阅读 · 2019年6月5日
深度学习人体姿态估计算法综述
AI前线
24+阅读 · 2019年5月19日
基于深度学习的目标检测算法综述
AI研习社
15+阅读 · 2018年4月25日
CNN 模型压缩与加速算法综述
机器学习研究会
16+阅读 · 2017年8月25日
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
45+阅读 · 2015年12月31日
国家自然科学基金
25+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2013年12月31日
微信扫码咨询专知VIP会员