前沿的具备智能体能力的 AI 系统(agentic AI systems)建立在可适配的基础模型之上,这些模型能够执行规划、推理,并与外部工具交互,从而完成日益复杂且高度专业化的任务。随着此类系统在能力与应用范围上的不断扩展,“适应”(adaptation)成为提升性能、可靠性与泛化能力的核心机制。
在本文中,我们将快速增长的相关研究统一到一个系统化框架之中,该框架同时涵盖智能体适应与工具适应。我们进一步将智能体适应细分为由工具执行信号触发的适应(tool-execution–signaled)以及由智能体输出信号触发的适应(agent-output–signaled);同时将工具适应细分为与智能体无关的适应(agent-agnostic)和由智能体监督的适应(agent-supervised)。我们证明该框架有助于厘清具身智能体 AI(agentic AI)中各种适应策略的设计空间,使它们的权衡变得明确,并为在系统设计过程中选择或切换策略提供实用指导。
随后,我们回顾每一类别中的代表性方法,分析其优势与局限,并指出关键的开放挑战及未来机遇。总体而言,本文旨在为探索构建更强大、高效且可靠的智能体化 AI 系统的研究者与实践者提供概念基础与实践路线图。 GitHub 仓库:https://github.com/pat-jj/Awesome-Adaptation-of-Agentic-AI
基础模型(如大型语言模型,LLMs)的快速进展正推动具备智能体能力的 AI 系统(agentic AI systems)的兴起:这些自主式 AI 系统能够感知其环境、调用外部工具、管理记忆,并执行多步规划以完成复杂任务 [1–4]。智能体化 AI 在从科学发现 [5, 6] 到软件开发和临床研究 [7, 8] 等应用中展现出卓越潜力。然而,当前的智能体化 AI 系统仍面临诸多挑战,例如工具使用不稳定、长程规划能力有限、领域特定的推理能力缺失、现实环境下的鲁棒性问题,以及在智能体缺乏交互经验的未知环境中的泛化不足 [9–11]。这些局限说明,即使是能力很强的基础模型,在面向特定任务或真实场景时仍常常需要进一步适应。这便引出了智能体 AI 系统中的“适应”(adaptation)需求,即通过修改或优化智能体系统的组成部分,使智能体在不同场景中获得更高的任务性能、更高的可靠性以及更好的泛化能力。 基于上述动机,我们对智能体化 AI 系统中的适应机制进行了全面综述,旨在系统化分析智能体系统的不同组件是如何被修改以克服当前瓶颈的。与现有关于现代 AI 智能体的综述不同 [1, 12–16],本论文特别聚焦于智能体中的适应机制。为组织快速扩张的相关研究,我们提出了一个统一框架,将智能体 AI 中的适应方法划分为涵盖智能体适应与工具适应的四大核心范式,如图 1 所示。该框架澄清了适应策略的底层设计空间,明确了不同策略间的权衡,并为根据监督信号、任务需求与系统级约束选择或切换适应策略提供了实用指南。 在我们的框架中,我们根据被优化的组件不同,将智能体 AI 的适应策略划分为两大维度(§3)。第一维度称为智能体适应(Agent Adaptation),聚焦于修改智能体的内部参数、表示或行为策略,使其更符合任务需求。其中包括传统的微调(fine-tuning)方法 [17],以及利用环境反馈的现代强化学习方法 [18, 19]。第二维度称为工具适应(Tool Adaptation),将优化目标从智能体转移到外部工具,如检索器、规划器、记忆模块与专用模型,使冻结的智能体能够从可适应的操作环境中受益 [20, 10, 21]。 在这两个大类之下,我们进一步识别出四种彼此区分的适应策略,形成了一个系统化的分类法,用于组织不断演化的智能体化 AI 研究图景:
智能体利用其调用的外部工具所产生的 可验证结果 进行优化。此范式包括工具执行结果直接给出正确信号的场景,例如代码沙箱运行结果、检索相关性评分或 API 调用输出等。
智能体基于对其自身输出(最终答案、规划或推理轨迹等)的评估进行优化,这些输出可能融合了工具结果。该范式既包括无工具的结果驱动学习,也包括利用答案正确性或偏好分数驱动的、由工具增强的适应方法。
工具在不依赖智能体参数的情况下独立训练,包括检索器、领域特定模型和其他可插拔式预训练组件。冻结的智能体可以直接调用这些工具。
智能体保持冻结,而工具根据智能体输出所提供的信号进行适应训练。此范式包括奖励驱动的检索器调优、自适应重排序器、搜索子智能体,以及根据智能体反馈更新的记忆模块等。
需要强调的是,这四种适应策略并非互斥:最先进的系统通常会组合多种适应范式以实现最优性能 [22–24]。例如,一个深度研究系统可能会结合: * T1:预训练密集检索器(retrieval tools) * T2:通过冻结 LLM 反馈训练的自适应搜索智能体 * A1:基于执行反馈微调的推理智能体
形成一种级联结构 [6]。 在 §6 中,我们进一步指出,这些适应范式的选择涉及多个维度的基本权衡: 1. 成本与灵活性:
智能体适应(A1/A2)通常需要大量计算资源,但灵活性最高; * 工具适应(T1/T2)成本更低,但受限于冻结智能体的能力 [25, 20]。 1. 泛化能力:
T1 工具训练于广泛数据分布,通常具有较强泛化性 [21, 26]; * A1 方法若无适当正则化,则可能对特定环境过拟合 [18]。 1. 模块化:
T2 方法允许无需重新训练智能体即可升级工具 [27, 20],支持持续系统演进; * A1/A2 方法可能在适应新任务时产生灾难性遗忘。
本文首次提出了针对智能体化 AI 的完整适应策略分类体系,系统性地组织了智能体适应(A1, A2)与工具适应(T1, T2)的最新研究进展。我们的主要贡献包括: * 统一的概念框架:澄清不同适应范式之间的联系、差异及其基本原理(图 2)。 * 详细技术综述:系统介绍各类代表性方法的训练目标、架构设计与在多样基准上的实验表现。 * 系统性比较:从成本、灵活性、泛化能力与模块化等维度比较不同适应策略。 * 跨领域应用分析:展示适应策略在深度研究、软件开发、电脑操作与药物发现等领域的应用 (§7)。 * 提出开放挑战与未来方向:包括智能体与工具的统一协同适应框架、适应动态的理论研究,以及标准化评测协议 (§8)。
余下部分的结构如下: * 第 2 节介绍智能体化 AI 系统的基础概念,并阐述两类主要的适应方式(提示工程与微调)。 * 第 3 节从整体视角介绍我们的适应范式框架,对四类策略(A1, A2, T1, T2)进行形式化描述并举例说明。 * 第 4 与第 5 节分别系统性回顾智能体适应(A1, A2)与工具适应(T1, T2)的方法。 * 第 6 节从多维度比较这些范式。 * 第 7 节讨论跨领域的真实应用。 * 第 8 节总结开放挑战与未来研究方向。
全文强调了智能体适应与工具适应的互补性,并指出最有效的智能体化系统将战略性地结合两类适应方式,以实现跨任务和跨环境的鲁棒、高效、可泛化性能。