Large Language Models (LLMs) are rapidly being integrated into real-world applications, yet their autoregressive architectures introduce significant inference time variability, especially when deployed across heterogeneous edge-cloud systems. Existing solutions largely neglect the dynamic, stochastic, and heterogeneous nature of such environments, often ignoring the impact of variable output token lengths and device diversity. In this work, we present Argus, the first token-aware distributed edge-cloud LLM inference framework that conducts efficient task offloading. Argus features a Length-Aware Semantics (LAS) module, which predicts output token lengths for incoming prompts using a fine-tuned language model with token-length-sensitive feature modulation, enabling precise estimation. Building on this, our Lyapunov-guided Offloading Optimization (LOO) module formulates long-term Quality-of-Experience optimization that explicitly considers both LLM prefilling and decoding costs. We introduce a novel Iterative Offloading Algorithm with Damping and Congestion Control (IODCC) to effectively solve the resulting integer nonlinear programming problem under time-varying constraints. Extensive theoretical and empirical evaluations demonstrate that Argus achieves robust performance and superior efficiency in highly dynamic, heterogeneous settings.


翻译:大语言模型正快速融入实际应用,但其自回归架构引入了显著的推理时间不确定性,尤其在部署于异构边缘-云系统时更为突出。现有解决方案大多忽视了此类环境的动态性、随机性与异构性,通常忽略了可变输出令牌长度与设备多样性的影响。本文提出Argus,首个基于令牌感知的分布式边缘-云大语言模型推理框架,可实现高效任务卸载。Argus设计了长度感知语义模块,该模块通过采用具有令牌长度敏感特征调制机制的微调语言模型,对输入提示词的输出令牌长度进行预测,从而实现精确估计。在此基础上,我们的李雅普诺夫引导卸载优化模块构建了长期体验质量优化模型,明确考虑了大语言模型预填充与解码阶段的成本。我们提出了一种新颖的带阻尼与拥塞控制的迭代卸载算法,以在时变约束下有效求解由此产生的整数非线性规划问题。大量理论与实验评估表明,Argus在高动态异构环境中实现了鲁棒的性能与卓越的效率。

0
下载
关闭预览

相关内容

UTC: 用于视觉对话的任务间对比学习的统一Transformer
专知会员服务
14+阅读 · 2022年5月4日
【NeurIPS2019】图变换网络:Graph Transformer Network
Single-Shot Object Detection with Enriched Semantics
统计学习与视觉计算组
14+阅读 · 2018年8月29日
论文浅尝 | Know-Evolve: Deep Temporal Reasoning for Dynamic KG
开放知识图谱
36+阅读 · 2018年3月30日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
VIP会员
相关资讯
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员