Agentic AI frameworks add a decision-making orchestrator embedded with external tools, including web search, Python interpreter, contextual database, and others, on top of monolithic LLMs, turning them from passive text oracles into autonomous problem-solvers that can plan, call tools, remember past steps, and adapt on the fly. This paper aims to characterize and understand the system bottlenecks introduced by agentic AI workloads from a largely overlooked CPU-centric perspective. We first systematically characterize Agentic AI on the basis of orchestrator/decision making component, inference path dynamics and repetitiveness of the agentic flow which directly influences the system-level performance. Thereafter, based on the characterization, we choose five representative agentic AI workloads- Haystack RAG, Toolformer, ChemCrow, Langchain and SWE-Agent to profile latency, throughput and energy metrics and demystify the significant impact of CPUs on these metrics relative to GPUs. We observe that - 1. Tool processing on CPUs can take up to 90.6% of the total latency; 2. Agentic throughput gets bottlenecked either by CPU factors - coherence, synchronization and over-subscription of cores or GPU factors - main memory capacity and bandwidth; \circled{3} CPU dynamic energy consumes up to 44% of the total dynamic energy at large batch sizes. Based on the profiling insights, we present two key optimizations- 1. CPU and GPU-Aware Micro-batching (CGAM) and 2. Mixed Agentic Workload Scheduling (MAWS) for homogeneous and heterogeneous agentic workloads respectively to demonstrate the potential to improve the performance, efficiency, and scalability of agentic AI. We achieve up to 2.1x and 1.41x P50 latency speedup compared to the multi-processing benchmark for homogeneous and heterogeneous agentic workloads respectively.


翻译:智能体AI框架在单体大语言模型之上,增加了一个嵌入外部工具(包括网络搜索、Python解释器、上下文数据库等)的决策编排器,从而将其从被动的文本预言机转变为能够规划、调用工具、记忆过去步骤并实时适应的自主问题解决者。本文旨在从一个长期被忽视的以CPU为中心的视角,来刻画和理解智能体AI工作负载引入的系统瓶颈。我们首先基于编排器/决策组件、推理路径动态特性以及直接影响系统级性能的智能体流程重复性,对智能体AI进行了系统性的刻画。随后,基于此刻画,我们选择了五个代表性的智能体AI工作负载——Haystack RAG、Toolformer、ChemCrow、Langchain和SWE-Agent,来分析其延迟、吞吐量和能耗指标,并揭示了CPU相对于GPU对这些指标的显著影响。我们观察到:1. CPU上的工具处理可占总延迟的90.6%;2. 智能体吞吐量瓶颈可能源于CPU因素——核心的一致性、同步和过度订阅,或GPU因素——主存容量和带宽;③ 在大批量处理时,CPU动态能耗可占总动态能耗的44%。基于分析洞察,我们提出了两项关键优化:1. CPU与GPU感知的微批处理(CGAM),以及2. 混合智能体工作负载调度(MAWS),分别针对同构和异构智能体工作负载,以展示提升智能体AI性能、效率和可扩展性的潜力。与多进程基准相比,我们在同构和异构智能体工作负载上分别实现了高达2.1倍和1.41倍的P50延迟加速。

0
下载
关闭预览

相关内容

中央处理器(CPU,Central Processing Unit),电子计算机的主要设备之一。其功能主要是解释计算机指令以及处理计算机软件中的数据。
【NeurIPS2025】迈向开放世界的三维“物体性”学习
DeepSeek模型综述:V1 V2 V3 R1-Zero
专知会员服务
116+阅读 · 2月11日
【NeurIPS2019】图变换网络:Graph Transformer Network
专知会员服务
112+阅读 · 2019年11月25日
【Tutorial】计算机视觉中的Transformer,98页ppt
专知
21+阅读 · 2021年10月25日
论文浅尝 | GEOM-GCN: Geometric Graph Convolutional Networks
开放知识图谱
14+阅读 · 2020年4月8日
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
【NeurIPS2019】图变换网络:Graph Transformer Network
Single-Shot Object Detection with Enriched Semantics
统计学习与视觉计算组
14+阅读 · 2018年8月29日
国家自然科学基金
13+阅读 · 2017年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
Arxiv
0+阅读 · 11月1日
VIP会员
相关VIP内容
相关资讯
【Tutorial】计算机视觉中的Transformer,98页ppt
专知
21+阅读 · 2021年10月25日
论文浅尝 | GEOM-GCN: Geometric Graph Convolutional Networks
开放知识图谱
14+阅读 · 2020年4月8日
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
【NeurIPS2019】图变换网络:Graph Transformer Network
Single-Shot Object Detection with Enriched Semantics
统计学习与视觉计算组
14+阅读 · 2018年8月29日
相关基金
国家自然科学基金
13+阅读 · 2017年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员