大语言模型 (LLMs) 在处理各类复杂任务中展现出卓越的能力,然而,前沿模型与数千个具有特定领域需求的下游 AI 应用之间仍存在根本性的脱节 (Decoupling)。这种分化限制了系统性能与效率:模型在训练与推理服务 (Serving) 阶段未能感知下游应用的需求。本论文设计了一系列耦合模型层与应用层的系统与算法,旨在推进应用感知型 (Application-aware) 基础设施与模型的发展。 首先,我们提出了三个旨在优化成本与性能的应用感知型基础设施系统。Agentix 是一款推理引擎,为 AI 智能体引入了应用感知调度机制;通过追踪 LLM 调用间的依赖关系并利用应用层统计信息,Agentix 的端到端响应速度较 vLLM 等最先进 (SOTA) 系统提升了 4 至 15 倍。其次,Stylus 是一种可扩展的模型路由器,能够从超过 10 万个 LoRA 适配器池中检索并组合最优模型,从而提升了基础 Stable Diffusion 模型的性能。最后,Starburst 是一款面向混合云机器学习基础设施的成本感知调度器,通过基于作业特征动态分配等待时间,在保持最短作业完成时间的同时,将云成本降低了高达 91%。 随后,我们证明了通过强化学习 (RL) 实现模型与应用的深度耦合,能够同时解锁更高的性能与更低的成本。通过 Agentica 项目,我们表明经过特定应用强化学习训练的小规模模型,能够以极低的成本达到前沿模型的性能水平。其中,DeepScaleR (1.5B) 仅耗费 3,800 GPU 小时便在数学推理任务上超越了 o1-preview,较此前方法实现成本降低 18 倍;DeepCoder (14B) 在竞赛编程中达到了 o3-mini 级别的表现;DeepSWE (32B) 则构建了最先进的自主编程智能体,其表现优于此前所有开源智能体 12 个百分点以上。
综上所述,这些研究成果为应用开发者及各类组织实现了前沿 AI 能力的“平民化” (Democratization)。
“我们正从规模化时代迈向研究时代。” —— 伊利亚·苏茨克维 (Ilya Sutskever) 在过去十年中,大语言模型 (LLMs) 彻底改变了计算与应用的格局。尽管自 2017 年提出以来,核心 Transformer 架构 [201] 基本保持不变,但 LLMs 通过规模化 (Scaling) 实现了显著的性能提升——模型参数从百万级跃升至万亿级 [23, 29, 195, 44],训练数据集也涵盖了数万亿个 Token [199, 151]。自 2022 年底 ChatGPT 发布以来,这种规模化范式促使垂直领域的应用迅速激增:包括解决 GitHub 问题的编程智能体 [93, 225]、综合全网信息的搜索智能体 [144]、多模态计算机辅助程序 [10]、自主深度研究系统 [152] 等。如今,这些由 LLM 驱动的应用通过延长推理链条、并行动态 LLM 调用以及外部工具调用 [158, 230, 184] 来扩展推理侧计算量 (Inference-time computation),从而应对浏览网页、故障排除及发现新型蛋白质 [146] 等复杂任务。 然而,正如摩尔定律一样,仅靠规模化驱动 LLM 的时代已进入边际收益递减阶段。首先,模型性能显著进入平台期——每一代新 LLM 带来的提升都比前一代更小。例如,从 Claude Sonnet 4 到 4.5,SWE-Bench-Verified 的准确率仅从 72.5% 提升至 77% [100];从 Gemini 2.5 到 3,AIME 准确率从 88% 提升至 95% [9]。对于现有的 AI 应用而言,基准测试中报告的性能可能与端用户的实际感知并不一致——一个在基准测试中高出 5% 的模型,在实践中可能让人感觉并无区别。其次,生产此类模型的成本已变得高不可攀——拥有数千亿至数万亿参数的模型在训练和推理阶段都需要巨大的计算资源,这为必须大规模部署这些模型的下游应用设置了障碍。 这些有限的性能增益源于模型与应用之间的根本性脱节 (Decoupling)。目前,前沿模型由少数实验室开发,并在多个通用基准测试中进行优化;而 AI 应用则由数千家具有特定领域需求的初创公司和企业构建。这种分化导致了错配:模型在训练和提供服务时并未感知到下游应用的需求,从而限制了性能与效率。一个极具说服力的例子是用于对话式 AI 的人类反馈强化学习 (RLHF) [156]。GPT-3 [23] 虽然原始能力强大,但对于聊天机器人而言既不安全也不实用——它会生成有害内容、无法遵循指令,并产生与用户预期不符的输出。通过 RLHF 训练模型来优化源自人类偏好的奖励信号,将模型与其下游应用(聊天)耦合在了一起。由此产生的 ChatGPT 系统在可用性上实现了质的飞跃,而这种飞跃是单纯依靠规模化无法实现的。 在本论文中,我们设计了将模型层与应用层耦合在一起的系统与算法。我们沿着两个互补的方向追求这一目标:首先,使推理服务基础设施感知下游应用需求;其次,通过训练使模型本身专门化,以适配其目标应用。
流行的 LLM 推理引擎(如 vLLM [108] 和 SGLang [250])极大地简化了模型在生产环境中的部署流程。这些引擎主要针对请求级指标进行优化,例如首字延迟 (TTFT)、Token 间延迟以及以每秒 Token 数 (TPS) 衡量的吞吐量——这些指标对于简单的聊天机器人交互至关重要。 然而,随着 LLM 应用从单一的聊天机器人转向复杂的通用 AI 应用,这些请求级的优化无法捕捉到复杂应用的核心诉求。以一个解决 GitHub 问题的自主编程智能体为例:它可能会发起数十次 LLM 调用,包括分析代码库、制定计划、编写代码、运行测试以及根据反馈进行迭代。用户体验到的端到端延迟并不取决于任何单次调用,而是取决于所有调用之间的程序级执行 (Program-level execution)。一个优化单次请求指标的服务系统可能会因为未能考虑调用间的依赖关系,而无意中增加了程序级的延迟。为了解决这一问题,我们开发了 Agentix (第 2 章),这是一款引入应用感知调度的推理引擎,旨在最小化 AI 应用的端到端延迟。通过追踪应用层统计信息和 LLM 调用间的依赖关系,Agentix 减少了队头阻塞 (Head-of-line blocking),并将各类 AI 应用的吞吐量提升了 4-15 倍。这反过来降低了服务 AI 应用所需的成本。 除了调度之外,将请求路由到正确的模型也会影响成本和应用性能。在图像领域,社区驱动的微调适配器贡献——例如 CivitAI [134] 上的 10 万多个 LoRA——为通过模型组合提升生成质量提供了契机。用户可以组合针对不同概念、角色和风格的多个专用适配器,以生成高度符合其要求的图像。然而,从这个庞大的生态系统中手动选择相关适配器在规模化应用中是不切实际的,因为选错适配器会引入偏见,而盲目组合不同适配器则会降低图像质量。为此,我们开发了 Stylus (第 3 章),这是一个可扩展的模型路由系统,能够根据用户提示词自动检索并组合相关适配器。Stylus 采用了三阶段流水线:首先通过视觉语言模型生成准确适配器描述的细化器 (Refiner);其次通过嵌入向量相似度获取候选适配器的检索器 (Retriever);最后是将提示词分割为不同任务并分配适配器,同时过滤无关适配器的组合器 (Composer)。该方法提升了视觉保真度、文本对齐度和图像多样性——在人类偏好评分上比基础 Stable Diffusion 高出多达 2 倍。 最后,专门用于机器学习 (ML) 工作负载的多租户基础设施也必须利用用户作业的信息来优化成本。对于前沿实验室而言,预训练和后训练运行极其昂贵——单次前沿模型运行可能耗资数千万美元,且研究人员会在不同实验中产生数百个检查点 (Checkpoints)。组织通常结合使用预留实例和按需实例来处理这些训练任务,从而形成在需求高峰期向云端资源“冲刷” (Burst) 的混合云基础设施。挑战在于决定何时将作业分流到云端:过早发送会浪费云端计算费用;等待时间过长则会延迟作业完成并阻塞其他作业。这种权衡在 AI 工作负载中尤为显著,因为作业规模差异巨大——从针对小模型的超参数搜索到请求数千个 GPU 的大规模分布式训练任务。为了解决该问题的调度维度,我们开发了 Starburst (第 4 章),这是一款面向混合云环境的成本感知调度器。Starburst 的核心见解是:等待时间应与作业的计算成本成正比——大规模、昂贵的作业应在集群资源中等待更久(因为其云成本极高),而小作业则可以快速分流。Starburst 引入了计算-等待 (Compute-Wait) 机制,根据作业资源请求与预测运行时间的乘积动态分配等待时间;并引入了乱序调度 (Out-of-Order scheduling),允许小作业绕过等待中的大作业以减少队头阻塞。这些技术移动了“成本-作业完成时间 (JCT)”的帕累托前沿,在保持最短作业完成时间的同时,将云成本降低了高达 91%。
虽然基础设施的优化可以大幅降低训练与服务成本,但要实现目标应用下一阶段的能力跃迁,往往需要改变模型本身。推理模型最近取得的成功(以 OpenAI 的 o1 [153] 和 DeepSeek-R1 [41] 为代表)证明了强化学习 (RL) 可以解锁超越纯监督学习的能力。这些模型学会了生成长链思维 (CoT)、探索多种解决方案路径并自我纠正错误,在数学推理和编程基准测试中实现了突破性性能。 在第 5 章中,我们介绍了 Agentica 项目,这是一项旨在推动 LLM 强化学习“平民化”的社区驱动计划。Agentica 在 DeepSeek-R1 发布后不久启动,旨在回答一个根本性问题:通过强化学习训练的小型模型,能否匹配规模大得多的前沿模型的性能?我们的研究结果表明答案是肯定的。通过精细的算法与系统协同设计,我们证明了将 RL 应用于小型 LLM 可以实现与前沿实验室模型相当的性能,而训练和服务成本仅为其一小部分。DeepScaleR 训练的一个 1.5B 模型,仅需 3,800 GPU 小时即可在数学推理上超越 o1-preview,训练成本降低了 18 倍。其核心创新是迭代式上下文扩增 (Iterative context lengthening):与其从一开始就使用长上下文训练,我们从 8K 短上下文开始,随着模型学会更高效地推理,逐步扩展到 16K 和 24K。DeepCoder 将这些技术扩展到了竞赛编程领域,对组相对策略优化 (GRPO) 进行了算法改进,使其在长上下文下训练更加稳定。最终产生的 14B 模型在 LiveCodeBench 上达到了 o3-mini 级别的表现。最后,DeepSWE 应用强化学习训练了用于真实软件工程的自主多步编程智能体,在 SWE-Bench Verified 上达到了 59%,优于此前所有开源智能体 12 个百分点以上。 总之,这些结果带来了一个重要的启示:通过 RL 将模型与其下游应用耦合,不仅能提升性能,还能降低成本。特别地,经过特定应用 RL 训练的小型模型可以匹配或超越大型通用模型,且小型模型的推理服务成本显著更低。这为任何应用开发者实现了前沿级能力的平民化,使研究人员和组织能够构建属于自己的高性能 AI 系统。