With the advancement of large language models (LLMs), their context windows have rapidly expanded. To meet diverse demands from varying-length requests in online services, existing state-of-the-art systems tune the sequence parallelism (SP) allocation. However, current dynamic SP allocation lacks flexibility to (1) support stage-specific parallelism requirements in LLM inference, (2) mitigate the global latency degradation from excessive SP allocation, and (3) exploit resource fragments arising from SP size variation. To tackle this problem, we propose Chunkwise Dynamic Sequence Parallelism (CDSP), a fine-grained parallelism strategy that assigns SP sizes across \textit{intra-request} token segments. Based on CDSP, we build Tetris, an LLM serving system that (1) efficiently integrates CDSP into disaggregated cluster to satisfy parallelism heterogeneity, (2) dynamically regulates SP size expansion based on real-time load conditions, and (3) adaptively explores chunking plans to utilize fragmented resources while meeting per-request demands. Compared with state-of-the-art systems, Tetris achieves up to 4.35$\times$ lower time-to-first-token (TTFT) under max sustainable loads, reduces median time-between-tokens (TBT) by up to 40.1\%, and increases the max request capacity by up to 45\%.


翻译:随着大语言模型(LLMs)的发展,其上下文窗口迅速扩大。为满足在线服务中不同长度请求的多样化需求,现有最先进的系统会调整序列并行(SP)分配。然而,当前的动态SP分配缺乏灵活性,无法(1)支持LLM推理中特定阶段的并行性需求,(2)缓解因过度SP分配导致的全局延迟退化,以及(3)利用SP规模变化产生的资源碎片。为解决此问题,我们提出块级动态序列并行(CDSP),这是一种细粒度并行策略,可在请求内部(intra-request)的令牌段间分配SP规模。基于CDSP,我们构建了Tetris系统,这是一个LLM服务系统,能够(1)高效地将CDSP集成到解耦集群中以满足并行性异构需求,(2)基于实时负载条件动态调节SP规模扩展,以及(3)自适应探索分块方案以利用碎片化资源,同时满足每个请求的需求。与最先进的系统相比,Tetris在最大可持续负载下实现了高达4.35倍的首令牌时间(TTFT)降低,将令牌间时间(TBT)中位数减少了高达40.1%,并将最大请求容量提升了高达45%。

0
下载
关闭预览

相关内容

国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员