要—本综述在概念上明确区分了AI智能体与代理式AI(Agentic AI),通过构建结构化的概念分类体系、应用映射与挑战分析,厘清二者在设计理念与能力上的差异。我们首先介绍文献检索策略与基本定义,将AI智能体界定为由大语言模型(LLM)和大多模态模型(LIM)驱动的模块化系统,主要用于执行特定任务的自动化操作。生成式AI被视为前身,AI智能体的发展体现在工具集成、提示工程和推理能力增强等方面。 与此不同,代理式AI代表一种范式转变,其核心特征包括多智能体协作、动态任务拆解、持久记忆机制与自主行为的统一编排。我们通过架构演化、运行机制、交互方式与自主性层级等维度,系统对比了两种范式的异同。 在应用场景方面,AI智能体常用于客户支持、日程管理与数据摘要等任务,而代理式AI则被应用于科研自动化、机器人协同与医疗决策支持等更具复杂性和自主性的领域。我们还分析了两类系统面临的关键挑战,如幻觉现象、脆弱性、涌现行为以及协同失败,并提出包括ReAct闭环机制、RAG检索增强生成、编排层架构和因果建模等在内的应对策略。 本研究旨在为构建稳健、可扩展且可解释的AI系统提供清晰的理论路径与技术参考。 关键词:AI智能体,代理式AI,自主性,推理,情境感知,多智能体系统,概念分类,视觉-语言模型
在2022年广泛采用AI智能体与代理式AI(Agentic AI)之前(即“ChatGPT前时代”),自主智能体的发展深深植根于人工智能的基础范式之中,尤其是多智能体系统(Multi-Agent Systems, MAS)与专家系统,这些系统强调社会行为与分布式智能 [1][2]。值得注意的是,Castelfranchi [3] 通过引入社会行为、结构与心智的本体论分类,为社会性智能体奠定了理论基础,认为社会性源于个体智能体在共享环境中行动与认知过程,目标委托与采纳等概念构成了合作与组织行为的基础。类似地,Ferber [4] 构建了系统化的MAS框架,将智能体定义为具有自主性、感知能力与通信能力的实体,并强调其在分布式问题求解、群体机器人与虚拟仿真等场景中的应用。 这些早期研究表明,个体社会行为与认知架构是建模群体现象的基础,也为现代AI智能体的发展奠定了理论基石。本文基于这些洞见,探讨上述社会行为建模如何为具备复杂社会智能交互能力的现代AI智能体设计提供指导。 传统系统通常用于执行具有预定义规则的特定任务,具有有限的自主性与对动态环境的适应能力。这些类智能体系统主要为反应式或计划式结构,依赖符号推理、规则逻辑或脚本化行为,而非如今的学习驱动与情境感知能力 [5][6]。例如,专家系统利用知识库与推理引擎模拟人类在特定领域(如医疗诊断)的决策过程(如MYCIN系统 [7])。机器人中的反应式智能体则依据硬编码规则进行“感知-行动”循环(如早期的Stanford Cart [8])。多智能体系统用于分布式实体之间的协调,例如供应链管理中的拍卖式资源分配 [9][10]。电子游戏中的脚本化AI(如早期RPG中的NPC行为)依赖预设决策树 [11];而BDI(信念-欲望-意图)架构则赋予软件智能体目标导向行为,如空中交通管制仿真中的应用 [12][13]。这些系统缺乏现代代理式AI所具有的生成能力、自学习机制与环境适应性,后者则依赖于深度学习、强化学习与大规模数据 [14]。
近年来,公众与学术界对AI智能体与代理式AI的关注不断上升,反映了系统能力的整体跃迁。如图1所示,Google Trends 数据表明,自2022年底大规模生成模型出现后,全球对这两个术语的搜索兴趣显著上升。这一转变标志着代理系统设计从2022年前基于规则的封闭系统,迈向了ChatGPT之后以学习驱动与灵活架构为核心的新阶段 [15]–[17]。新一代系统具备随时间改进性能的能力,能够自主处理非结构化、动态输入 [18]–[20]。例如,以前的专家系统需要手动更新静态知识库,而现代智能体可通过神经涌现行为实现跨任务泛化 [17]。趋势的上升说明人们已日益意识到这一范式差异。此外,AI系统的应用已从仿真与物流等封闭领域扩展到需要实时推理与适应控制的开放世界场景,彰显了自主代理架构在实际部署中的重要性。 ChatGPT于2022年11月的发布成为AI发展史上的一个拐点,推动全球范围内的AI采用、投资与研究热潮 [21]。此后,AI从独立大语言模型(LLMs)迅速转向更加自主、面向任务的系统框架 [22]。该演进可分为两个阶段:AI智能体与代理式AI。最初,ChatGPT的成功催生了“生成式智能体”(Generative Agents),即基于LLM生成文本、图像、代码等内容的系统 [23][24]。这类智能体迅速被应用于各类场景,如对话助手(例如GitHub Copilot [25])、内容生成平台(如Jasper [26])与创意工具(如Midjourney [27]),在2023年间彻底变革了数字设计、营销与软件原型开发等领域。
在生成式基础之上,一类新系统应运而生——AI智能体。它们通过集成外部工具调用、函数执行与序列推理,显著扩展了LLM的能力,使其能够获取实时信息并自主完成多步骤工作流 [28][29]。如AutoGPT [30] 与 BabyAGI 就展示了将LLM嵌入反馈闭环,实现任务规划、执行与自适应的能力 [31][32]。 到2023年底,研究进一步迈入代理式AI阶段,这类系统通常由多个专职智能体组成,能够共同分解任务、进行通信与协调以达成共享目标。例如,CrewAI 等架构展示了如何通过角色划分与协同决策,实现代理系统在自动化机器人、物流管理与医疗辅助决策等高风险场景中的应用 [33]–[36]。
随着AI智能体逐步向自主化系统演进,明确AI智能体与代理式AI之间的技术与概念边界变得尤为关键。虽然两者都基于LLMs并继承了生成式系统的能力,但它们在系统架构、交互模式与自主性等级等方面存在根本区别。AI智能体通常为单体系统,能借助外部工具、序列化推理与实时信息处理来完成明确目标 [17][37];而代理式AI则由多个专用智能体组成,这些智能体可协调、通信并动态分配子任务,实现系统级合作 [14][38]。这种架构差异决定了其在可扩展性、适应性与应用范围上的本质差异。
在理论层面,明确这两类系统的分类具有重要意义。一方面,它能将系统设计与问题复杂度精准匹配,使AI智能体用于模块化工具辅助任务,而将代理式AI用于需组织协调的多智能体操作。另一方面,它也便于开展有针对性的评估:单智能体系统与分布式系统在性能评估、安全策略与资源消耗方面差异显著。此外,明晰的分类可避免设计误用,例如将本应单体执行的系统误认为需要多智能体协作,或低估复杂任务所需的代理式协调能力。
因此,本文旨在厘清AI智能体与代理式AI的定义差异,建立共享术语体系,提出结构化的概念分类框架,指导学术界与工业界下一代智能体系统的设计与评估,如图2所示。
本文采用结构化的多阶段方法论,系统回顾了AI智能体与代理式AI在演进路径、系统架构、应用场景与技术挑战方面的最新进展。方法流程如图3所示,依照从基础智能体构造到高级多智能体编排的逻辑展开。分析框架基于对学术文献与AI工具平台的综合综述,力求全面呈现当前研究格局与未来发展方向。 首先,我们界定AI智能体的基本概念、设计原则与系统模块,包括感知、推理与行动选择等功能,结合早期的应用场景(如客服机器人与信息检索助手),构建对代理范式的初步理解。 接着,我们探讨LLM作为核心推理组件的角色,阐明其通过指令微调与人类反馈强化学习(RLHF)实现自然语言交互、规划与初步决策能力。同时,我们也指出其局限性,如幻觉现象、知识静态化与因果推理缺失。 随后,本文进入代理式AI阶段,重点解析单体工具增强型系统如何演化为多智能体协同生态。这一转变源于对能够进行任务拆解、子任务分配、结果协调与动态适应系统的实际需求,而这些能力远超传统AI智能体的范围。 接下来的章节深入分析AI智能体与代理式AI架构的演化,比较简单模块化设计与复杂编排框架之间的区别。我们涵盖的关键增强功能包括:持久内存机制、元智能体协调、多智能体规划闭环(如ReAct与Chain-of-Thought提示)及语义通信协议,并辅以AutoGPT、CrewAI与LangGraph等典型平台示例。 在应用层面,我们归纳了两个范式下的典型场景:AI智能体适用于知识检索、邮件自动化与报告摘要等任务,而代理式AI更适用于研究助手、机器人群体控制与企业战略规划等复杂协同任务。每类应用均结合系统复杂性、实时决策需求与协同执行能力展开讨论。 随后,我们系统分析了两种范式所面临的主要挑战。AI智能体常见问题包括幻觉、提示脆弱性、规划深度有限与因果缺失;代理式AI则面临更高层次挑战,如智能体协同失衡、错误传播、涌现行为难以预测、可解释性不足与对抗攻击风险等。 最后,我们讨论了一系列潜在解决方案,包括因果建模、检索增强生成(RAG)、多智能体记忆架构与稳健评估机制。这些策略不仅是技术补丁,更是推动代理式系统扩展至医疗、金融、自动化机器人等关键领域的基础条件。 综上所述,本文通过分阶段的系统性评估,力求为AI智能体与代理式AI的研究与实践提供清晰的理论框架与可行路径。