Serving Large Language Models (LLMs) efficiently in multi-region setups remains a challenge. Due to cost and GPU availability concerns, providers typically deploy LLMs in multiple regions using instance with long-term commitments, like reserved instances or on-premise clusters, which are often underutilized due to their region-local traffic handling and diurnal traffic variance. In this paper, we introduce SkyWalker, a multi-region load balancer for LLM inference that aggregates regional diurnal patterns through cross-region traffic handling. By doing so, SkyWalker enables providers to reserve instances based on expected global demand, rather than peak demand in each individual region. Meanwhile, SkyWalker preserves KV-Cache locality and load balancing, ensuring cost efficiency without sacrificing performance. SkyWalker achieves this with a cache-aware cross-region traffic handler and a selective pushing based load balancing mechanism. Our evaluation on real-world workloads shows that it achieves 1.12-2.06x higher throughput and 1.74-6.30x lower latency compared to existing load balancers, while reducing total serving cost by 25%.


翻译:在多区域部署中高效服务大型语言模型(LLM)仍面临挑战。出于成本和GPU可用性考虑,服务提供商通常使用长期承诺实例(如预留实例或本地集群)在多个区域部署LLM,这些实例因仅处理区域本地流量及昼夜流量波动而常处于低利用率状态。本文提出SkyWalker,一种面向LLM推理的多区域负载均衡器,通过跨区域流量调度聚合区域昼夜流量模式。该机制使服务提供商能基于预期全局需求而非各区域峰值需求预留实例。同时,SkyWalker保持KV-Cache局部性与负载均衡特性,在保障性能前提下实现成本效益。其核心由缓存感知的跨区域流量处理器与基于选择性推送的负载均衡机制构成。实际工作负载评估表明,相较于现有负载均衡器,SkyWalker可实现1.12-2.06倍的吞吐量提升与1.74-6.30倍的延迟降低,同时减少25%的总服务成本。

0
下载
关闭预览

相关内容

【AAAI2021】“可瘦身”的生成式对抗网络
专知会员服务
13+阅读 · 2020年12月12日
【NeurIPS2019】图变换网络:Graph Transformer Network
如何使用自然语言工具包(NLTK)在Python3中执行情感分析
Python程序员
21+阅读 · 2019年10月28日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员