With the rapid adoption of Large Language Models (LLMs), LLM-adapters have become increasingly common, providing lightweight specialization of large-scale models. Serving hundreds or thousands of these adapters on a single GPU allows request aggregation, increasing throughput, but may also cause request starvation if GPU memory limits are exceeded. To address this issue, this study focuses on determining the joint configuration of concurrent and parallel adapters that maximizes GPU throughput without inducing starvation, given heterogeneous adapter and traffic properties. We propose a data-driven ML approach leveraging interpretable models to tackle this caching problem and introduce the first Digital Twin capable of reproducing an LLM-adapter serving system, enabling efficient training data generation. Experiments with the vLLM framework and LoRA adapters show that the Digital Twin reproduces throughput within 5.1% of real results, while the ML approach predicts optimal numbers of concurrent and parallel adapters with an error of at most 7.2% under heterogeneous, real-world workloads. The code is publicly available at https://github.com/FerranAgulloLopez/GPULLMAdapterOptimization.


翻译:随着大型语言模型(LLMs)的快速普及,LLM-Adapter(适配器)已变得越来越普遍,为大规模模型提供轻量级的专业化定制。在单个GPU上同时服务数百或数千个适配器可以实现请求聚合,从而提高吞吐量,但如果超过GPU内存限制,也可能导致请求饥饿。为解决这一问题,本研究聚焦于在给定异构适配器和流量特性的情况下,确定能够最大化GPU吞吐量且不引发饥饿的并发与并行适配器联合配置。我们提出了一种数据驱动的机器学习方法,利用可解释模型来解决这一缓存问题,并引入了首个能够复现LLM-Adapter服务系统的数字孪生,从而实现高效训练数据生成。使用vLLM框架和LoRA适配器的实验表明,该数字孪生复现的吞吐量与真实结果误差在5.1%以内,而机器学习方法在异构真实工作负载下预测最优并发与并行适配器数量的误差最多为7.2%。代码已在https://github.com/FerranAgulloLopez/GPULLMAdapterOptimization公开提供。

0
下载
关闭预览

相关内容

【ICLR2024】MathVista:视觉背景下基础模型的数学推理评估
专知会员服务
35+阅读 · 2024年1月20日
【ICCV2023】保留模态结构改进多模态学习
专知会员服务
31+阅读 · 2023年8月28日
专知会员服务
30+阅读 · 2020年9月18日
LibRec 每周算法:LDA主题模型
LibRec智能推荐
29+阅读 · 2017年12月4日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员