Existing Large Language Model (LLM) agent frameworks face two significant challenges: high configuration costs and static capabilities. Building a high-quality agent often requires extensive manual effort in tool integration and prompt engineering, while deployed agents struggle to adapt to dynamic environments without expensive fine-tuning. To address these issues, we propose \textbf{Youtu-Agent}, a modular framework designed for the automated generation and continuous evolution of LLM agents. Youtu-Agent features a structured configuration system that decouples execution environments, toolkits, and context management, enabling flexible reuse and automated synthesis. We introduce two generation paradigms: a \textbf{Workflow} mode for standard tasks and a \textbf{Meta-Agent} mode for complex, non-standard requirements, capable of automatically generating tool code, prompts, and configurations. Furthermore, Youtu-Agent establishes a hybrid policy optimization system: (1) an \textbf{Agent Practice} module that enables agents to accumulate experience and improve performance through in-context optimization without parameter updates; and (2) an \textbf{Agent RL} module that integrates with distributed training frameworks to enable scalable and stable reinforcement learning of any Youtu-Agents in an end-to-end, large-scale manner. Experiments demonstrate that Youtu-Agent achieves state-of-the-art performance on WebWalkerQA (71.47\%) and GAIA (72.8\%) using open-weight models. Our automated generation pipeline achieves over 81\% tool synthesis success rate, while the Practice module improves performance on AIME 2024/2025 by +2.7\% and +5.4\% respectively. Moreover, our Agent RL training achieves 40\% speedup with steady performance improvement on 7B LLMs, enhancing coding/reasoning and searching capabilities respectively up to 35\% and 21\% on Maths and general/multi-hop QA benchmarks.


翻译:现有的大型语言模型(LLM)智能体框架面临两大挑战:高昂的配置成本和静态的能力。构建高质量智能体通常需要在工具集成与提示工程方面投入大量人工,而已部署的智能体难以在不进行昂贵微调的情况下适应动态环境。为解决这些问题,我们提出 \textbf{Youtu-Agent},一个为LLM智能体的自动化生成与持续演化而设计的模块化框架。Youtu-Agent 采用结构化配置系统,将执行环境、工具集和上下文管理解耦,实现了灵活的复用与自动化合成。我们引入了两种生成范式:用于标准任务的 \textbf{工作流} 模式,以及用于复杂、非标准需求的 \textbf{元智能体} 模式,后者能够自动生成工具代码、提示词和配置。此外,Youtu-Agent 建立了一个混合策略优化系统:(1)一个 \textbf{智能体实践} 模块,使智能体能够通过上下文内优化积累经验并提升性能,而无需更新模型参数;(2)一个 \textbf{智能体强化学习} 模块,与分布式训练框架集成,支持以端到端、大规模的方式对任何 Youtu-Agent 进行可扩展且稳定的强化学习。实验表明,Youtu-Agent 在 WebWalkerQA(71.47\%)和 GAIA(72.8\%)基准测试上使用开源权重模型达到了最先进的性能。我们的自动化生成流程实现了超过 81\% 的工具合成成功率,而实践模块将 AIME 2024/2025 的性能分别提升了 +2.7\% 和 +5.4\%。此外,我们的智能体强化学习训练在 7B 参数的 LLM 上实现了 40\% 的加速,同时性能稳步提升,在数学与通用/多跳问答基准测试上,分别将编码/推理和搜索能力最高提升了 35\% 和 21\%。

0
下载
关闭预览

相关内容

机器或装置在无人干预的情况下按规定的程序或指令自动进行操作或控制的过程, 是一门涉及学科较多、应用广泛的综合性科学技术。
ICLR'21 | GNN联邦学习的新基准
图与推荐
12+阅读 · 2021年11月15日
【NeurIPS2019】图变换网络:Graph Transformer Network
NAACL 2019 | 一种考虑缓和KL消失的简单VAE训练方法
PaperWeekly
20+阅读 · 2019年4月24日
Single-Shot Object Detection with Enriched Semantics
统计学习与视觉计算组
14+阅读 · 2018年8月29日
国家自然科学基金
13+阅读 · 2017年12月31日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关资讯
ICLR'21 | GNN联邦学习的新基准
图与推荐
12+阅读 · 2021年11月15日
【NeurIPS2019】图变换网络:Graph Transformer Network
NAACL 2019 | 一种考虑缓和KL消失的简单VAE训练方法
PaperWeekly
20+阅读 · 2019年4月24日
Single-Shot Object Detection with Enriched Semantics
统计学习与视觉计算组
14+阅读 · 2018年8月29日
相关基金
国家自然科学基金
13+阅读 · 2017年12月31日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员