迈向智能体系统规模化的科学

智能体，即具备推理、规划与行动能力的基于语言模型（LM）的系统，正逐渐成为现实世界 AI 应用的主导范式。尽管其已被广泛采用，决定其性能的基本原理仍缺乏系统研究，使得实践者往往依赖经验性启发式方法，而非有原则的设计选择。为弥补这一空白，我们推导了智能体系统的定量规模化（scaling）原理。我们将规模化定义为以下因素之间的相互作用：智能体数量、协同（coordination）结构、模型能力以及任务属性。我们在四个多样化基准上对上述因素进行了评估：Finance-Agent、BrowseComp-Plus、PlanCraft 和 Workbench，分别覆盖金融推理、网页导航、游戏规划与工作流执行等任务场景。基于五种经典智能体架构（单智能体系统，以及四类多智能体系统：独立式、集中式、去中心化式和混合式），并在三大 LLM 家族上进行实例化，我们开展了一项受控实验评估，共涵盖 180 种配置。通过对工具、提示结构和 token 预算进行标准化，我们将架构效应与实现层面的混杂因素有效隔离。进一步地，我们基于经验性协同度量指标——包括效率、开销、错误放大与冗余性——构建了一个预测模型，其交叉验证决定系数为 R2=0.513R^2 = 0.513R2=0.513。该模型通过刻画任务属性而非对特定数据集过拟合，实现了对未见任务领域的性能预测。我们识别出三种主导效应：（1）工具–协同权衡：在固定计算预算下，工具密集型任务会因多智能体协同带来的额外开销而遭受更为显著的性能损失。（2）能力饱和效应：当单智能体基线性能超过约 45% 的经验阈值后，协同带来的收益呈现递减甚至为负（β=−0.408,p<0.001\beta=-0.408,, p<0.001β=−0.408,p<0.001）。（3）依赖拓扑结构的错误放大效应：独立式智能体由于缺乏约束的错误传播，会将错误放大 17.2 倍，而集中式协同可将该放大效应控制在 4.4 倍。关键在于，协同收益具有明显的任务依赖性。集中式协同在可并行任务（如金融推理）上可将性能提升 80.9%，而去中心化协同在动态网页导航任务中表现更优（+9.2% 对比 +0.2%）。然而，对于序列化推理任务，我们测试的所有多智能体变体均导致性能下降，幅度介于 39% 至 70% 之间。该框架能够为 87% 的留出配置准确预测最优协同策略，从而基于可测量的任务属性，提供了一种具有定量预测能力的智能体规模化原理。

1. 引言

智能体（Wang et al., 2024a）是一类由语言模型驱动的系统，其通过推理（reasoning）、规划（planning）与行动（acting）的迭代循环运行，并依据环境反馈或工具返回结果不断调整自身行为。近年来，智能体在诸多应用场景中展现出卓越性能，包括代码生成（Yang et al., 2024；Zhang et al., 2024）、网页浏览（Wei et al., 2025；Yao et al., 2022）、医疗决策（Heydari et al., 2025；Kim et al., 2024；McDuff et al., 2025）、金融分析（Yu et al., 2025）以及科学发现（Gottweis et al., 2025；Mitchener et al., 2025）。随着任务复杂度不断提升、且越来越依赖持续的环境交互，研究界逐渐转向多智能体系统（Multi-Agent Systems, MAS），其核心前提在于：专业化协作能够稳定优于单智能体系统（Single-Agent Systems, SAS）（Guo et al., 2024；Tran et al., 2025）。既有研究对多智能体系统提出了大量正面主张，例如“更多智能体就是你所需要的一切”（Li et al., 2024），认为智能体协作遵循某种协同规模化规律（Qian et al., 2025），并且 MAS 在复杂任务上始终优于 SAS（Chen et al., 2024b；Du et al., 2023）。然而，尽管多智能体系统被迅速采用，我们仍然缺乏一个有原则的定量框架，用于预测在何种条件下增加智能体数量会提升性能，又在何种情况下反而会削弱性能。这一缺口迫使实践者依赖经验性启发式方法，不仅阻碍了“智能体系统科学”的形成，也在现实部署中严重限制了判断多智能体协同是否相较于更简单的单智能体方案具有真实价值的能力。为了判断多智能体协同何时能够带来收益，我们首先需要明确哪些任务类别真正需要智能体能力。一个关键前提是区分智能体式（agentic）与非智能体式（non-agentic）的评测范式。在 Zhu et al. (2025) 提出的 Agentic Benchmark Checklist（ABC）基础上，我们将智能体任务刻画为同时满足以下条件的任务：（i）需要与外部环境进行持续的多步交互；（ii）在部分可观测条件下进行迭代式信息获取；（iii）基于环境反馈进行自适应策略调整。这些特征将网页浏览（Wei et al., 2025）、金融交易（Yu et al., 2025）、软件工程（Jimenez et al., 2024）和交互式规划（Dagan et al., 2024）等任务，与传统静态基准明确区分开来。后者通常可通过一次性推理完成，不依赖环境反馈，缺乏外部环境，具备完全可观测性，或对所有实例采用相同解题策略（Kapoor et al., 2025；Liu et al., 2024）。这一区分至关重要，因为尽管近年来出现了一些智能体基准（如 SWE-Bench（Jimenez et al., 2024）、𝜏²-Bench（Barres et al., 2025）和 TerminalBench），但多智能体系统的评测仍主要在非智能体任务上进行，这可能会对协同价值的判断产生误导。这种差异在实践中具有直接影响。例如，尽管 LLM 在 HumanEval（Chen et al., 2021）等孤立代码生成任务上可达到很高的准确率，但现实部署要求具备真正的智能体能力——包括迭代调试、代码仓库导航与自适应策略调整——这正是交互式编程助手（如 Cursor、Copilot Workspace）所体现的能力。在静态基准上，随着团队规模增加，多智能体系统可能呈现单调性能提升（例如五个智能体在 HumanEval 上达到 89%），但在需要持续环境交互的任务中，其规模化行为却发生了根本变化，协同开销与错误传播机制反而占据主导地位。从根本上看，这一区别反映了上下文整合（context integration）与多样性（diversity）之间的权衡（Du et al., 2023；Hong et al., 2024）。单智能体系统通过维护统一的记忆流，最大化上下文整合能力，使所有推理步骤都能访问完整历史信息，从而实现近似常数时间的全局上下文访问。相比之下，多智能体系统不可避免地引入信息碎片化（Tran et al., 2025）：并行智能体虽能促进多样化探索，但必须通过智能体间消息传递来压缩和共享全局上下文。这种有损通信不仅增加了同步开销和认知负担，还从根本上改变了协作的规模化行为。这些底层动态机制解释了上述差异：在智能体任务中，协同开销随交互深度增加而放大，智能体逐步运行在分化的世界状态之上，错误沿执行链级联传播，而非通过投票机制被纠正。近期研究已指出，在某些场景下，单个强模型即可达到甚至超过多智能体系统的性能（Gao et al., 2025），但现有评测文献几乎未能回答以下关键问题：哪些因素决定协作是否成功？语义多样性是否能预测团队性能？架构选择如何塑造协同成本？以及智能体是否能够在长程交互中检测并修复失败。这一问题因前沿模型能力的快速进展而进一步加剧。随着基础 LLM 具备更长的上下文窗口、更成熟的工具使用能力和更强的自我反思机制，多智能体协作的独特价值主张变得愈发模糊。答案很可能取决于任务特性与架构选择，而这些因素尚未被系统性量化。当前阻碍多智能体系统走向原则化设计的挑战主要有两个。首先，现有 MAS 评测在比较不同架构时，往往同时改变提示、工具或计算预算，导致架构效应与实现细节相互混杂，无法进行清晰的因果归因。其次，评测通常仅关注最终准确率指标，而忽略了决定协作成败的过程性动态因素，如协同开销、错误传播和信息流动。人类团队研究早已表明，团队效能取决于成员构成、协调机制和角色分化（Lencioni, 2002；McGrath, 1964），但我们对这些原则如何映射到人工智能体系统仍缺乏相应的经验性理解。为应对上述挑战，我们提出了一项受控评测，系统性建立智能体协同的基本原理。我们的实验设计通过在所有配置中保持任务提示、工具和计算预算完全一致，仅系统性地变化协同结构与模型能力，从而将架构效应与实现混杂因素严格分离。我们评测了五种经典架构：单智能体系统（SAS）以及四种多智能体变体（独立式、集中式、去中心化式和混合式），并在三大主流 LLM 家族（OpenAI、Google、Anthropic）上进行实例化，覆盖不同能力水平。实验在四个代表性智能体基准上展开：（1）网页浏览（BrowseComp-Plus；Chen et al., 2025），（2）金融分析（Finance-Agent；Bigeard et al., 2025），（3）游戏规划（PlanCraft；Dagan et al., 2024），以及（4）真实工作场景任务（Workbench；Styles et al., 2024）。在总计 N=180N=180N=180 种 token 预算匹配的受控配置上，我们推导出一种跨领域的规模化规律，用以量化性能如何由经验测量得到的协同属性所决定。与“更多智能体就是一切”的既有论断相反，我们的评测表明，多智能体系统的有效性受制于架构属性与任务特性之间的可量化权衡关系。我们基于经验性协同指标——效率（成功率/开销比）、错误放大因子、消息密度与冗余度——构建了一个预测框架，其交叉验证决定系数达到 R2=0.513R^2=0.513R2=0.513，在不引入数据集特定参数的前提下解释了留出数据中超过一半的性能方差。更关键的是，该框架能够泛化至训练配置之外：在 leave-one-domain-out 交叉验证下取得 R2=0.89R^2=0.89R2=0.89，并能正确预测 87% 留出任务配置的最优架构，表明其具备对未见任务结构的外推能力。我们的分析识别出三种核心模式。第一，工具–协同权衡（β=−0.330,p<0.001\beta=-0.330, p<0.001β=−0.330,p<0.001）：工具密集型任务（如涉及 16 种工具的软件工程任务）在多智能体协同下会遭受显著效率损失，且随着环境复杂度提升而不断累积。第二，能力上限效应（β=−0.408,p<0.001\beta=-0.408, p<0.001β=−0.408,p<0.001）：当单智能体性能已超过约 45% 的准确率阈值时，增加智能体数量往往产生负收益，因为协同成本超过了潜在的性能改进空间。第三，依赖架构的错误放大效应：独立式多智能体系统由于缺乏跨智能体验证机制，错误可相较单智能体基线被放大 17.2 倍；而集中式协同通过验证瓶颈（由协调器在聚合前审查子智能体输出）将错误放大控制在 4.4 倍。整体性能跨度从在集中式协同下的结构化金融推理任务中实现 +81% 的相对提升，到在独立式协同下的序列规划任务中出现 −70% 的性能退化。这清晰表明：协作成功的关键在于架构–任务匹配，而非智能体数量本身。进一步地，最优架构呈现出系统性差异：去中心化协同有利于需要并行探索高熵搜索空间的任务（如动态网页导航：+9.2%），而在需要序列约束满足的任务中（如规划），所有多智能体变体均一致导致性能下降（−39% 至 −70%），因为在固定计算预算下，协同开销会碎片化推理能力。我们将这些发现综合为定量化的架构选择规则（第 4.3 节），在留出配置上实现了 87% 的预测准确率。驱动上述模式的底层机制具有良好的可解释性：工具–协同权衡源于多智能体系统将 token 预算分散到多个智能体，导致单个智能体难以承担复杂的工具编排；能力上限效应反映了在高基线性能下，协同开销转化为纯成本；而架构依赖的错误放大则取决于是否存在能够在错误传播前进行拦截的验证瓶颈。这些机制性洞见使实践者能够从依赖经验的架构选择，转向基于测量与预测的原则化部署决策。 本文的主要贡献包括：

智能体系统的受控评测框架：提出一种用于比较智能体架构的系统性方法，通过控制实现混杂因素，明确归因协同结构对性能的影响。该框架涵盖三大 LLM 家族、四类基准和 180 种配置，实现了对架构选择因果效应的分析。 * 多智能体系统的规模化原理：基于效率（EcE_cEc）、错误放大（AeA_eAe）和冗余度（ρ\rhoρ）等经验性协同指标，构建混合效应模型（R2=0.513R^2=0.513R2=0.513），揭示推理能力与任务属性交互下性能形成的机制，并识别出工具–协同权衡与架构依赖错误级联等关键抑制因素。 * 架构–任务匹配的定量原则：证明智能体架构选择由可测量的任务特征（如可分解性、工具复杂度）主导，而非简单的智能体规模扩展。该框架在留出任务上实现 87% 的最优架构预测准确率，为智能体系统的原则化部署提供了定量依据。

成为VIP会员查看完整内容

1. 引言

相关内容