Real-world software engineering tasks require coding agents that can operate over massive repositories, sustain long-horizon sessions, and reliably coordinate complex toolchains at test time. Existing research-grade coding agents offer transparency but struggle when scaled to heavier, production-level workloads, while production-grade systems achieve strong practical performance but provide limited extensibility, interpretability, and controllability. We introduce the Confucius Code Agent (CCA), a software engineering agent that can operate at large-scale codebases. CCA is built on top of the Confucius SDK, an agent development platform structured around three complementary perspectives: Agent Experience (AX), User Experience (UX), and Developer Experience (DX). The SDK integrates a unified orchestrator with hierarchical working memory for long-context reasoning, a persistent note-taking system for cross-session continual learning, and a modular extension system for reliable tool use. In addition, we introduce a meta-agent that automates the synthesis, evaluation, and refinement of agent configurations through a build-test-improve loop, enabling rapid adaptation to new tasks, environments, and tool stacks. Instantiated with these mechanisms, CCA demonstrates strong performance on real-world software engineering tasks. On SWE-Bench-Pro, CCA reaches a Resolve@1 of 54.3%, exceeding prior research baselines and comparing favorably to commercial results, under identical repositories, model backends, and tool access.


翻译:真实世界软件工程任务要求编码代理能够操作海量代码库、维持长时程会话,并在测试阶段可靠协调复杂工具链。现有研究级编码代理虽具有透明度,但在扩展至更繁重的生产级工作负载时表现欠佳;而生产级系统虽实现强劲的实际性能,却在可扩展性、可解释性与可控性方面存在局限。我们提出孔子代码代理(CCA),一种能够在大规模代码库中运行的软件工程代理。CCA构建于孔子软件开发套件之上,该代理开发平台围绕三个互补视角构建:代理体验(AX)、用户体验(UX)与开发者体验(DX)。该SDK集成了具备分层工作记忆的统一编排器以实现长上下文推理,支持跨会话持续学习的持久化笔记系统,以及用于可靠工具使用的模块化扩展系统。此外,我们引入一种元代理,通过构建-测试-改进循环自动完成代理配置的合成、评估与优化,从而快速适应新任务、环境及工具栈。基于这些机制实例化的CCA在真实世界软件工程任务中展现出卓越性能。在SWE-Bench-Pro基准测试中,在相同代码库、模型后端与工具访问条件下,CCA的Resolve@1指标达到54.3%,超越先前研究基线,并与商业系统结果相比具有显著优势。

0
下载
关闭预览

相关内容

代码(Code)是专知网的一个重要知识资料文档板块,旨在整理收录论文源代码、复现代码,经典工程代码等,便于用户查阅下载使用。
Python图像处理,366页pdf,Image Operators Image Processing in Python
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员