Large language model (LLM) inference often suffers from high decoding latency and limited scalability across heterogeneous edge-cloud environments. Existing speculative decoding (SD) techniques accelerate token generation but remain confined to single-node execution. We propose DSD, a distributed speculative decoding framework that extends SD to multi-device deployments through coordinated draft-target execution. Given the lack of prior work on simulating this paradigm, we first introduce DSD-Sim, a discrete-event simulator that captures network, batching, and scheduling dynamics. Building on insights from DSD-Sim, we further design an Adaptive Window Control (AWC) policy that dynamically adjusts speculation window size to optimize throughput. Experiments across diverse workloads show that DSD achieves up to 1.1x speedup and 9.7% higher throughput over existing SD baselines, enabling agile and scalable LLM serving across edge and cloud.


翻译:大语言模型(LLM)推理常面临解码延迟高、在异构边缘-云环境中可扩展性受限的问题。现有推测解码(SD)技术虽能加速令牌生成,但仍局限于单节点执行。本文提出DSD,一种分布式推测解码框架,通过协调草案-目标执行将SD扩展至多设备部署。鉴于此前缺乏模拟该范式的研究,我们首先引入DSD-Sim——一个捕获网络、批处理和调度动态的离散事件模拟器。基于DSD-Sim的洞察,我们进一步设计了自适应窗口控制(AWC)策略,动态调整推测窗口大小以优化吞吐量。多样化工作负载实验表明,DSD相比现有SD基线最高可实现1.1倍加速和9.7%的吞吐量提升,从而在边缘与云端实现敏捷可扩展的LLM服务。

0
下载
关闭预览

相关内容

AAAI 2022 | ProtGNN:自解释图神经网络
专知
10+阅读 · 2022年2月28日
【NeurIPS2019】图变换网络:Graph Transformer Network
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员