Speculative decoding accelerates large language model (LLM) inference by using a lightweight draft model to propose tokens that are later verified by a stronger target model. While effective in centralized systems, its behavior in decentralized settings, where network latency often dominates compute, remains under-characterized. We present Decentralized Speculative Decoding (DSD), a plug-and-play framework for decentralized inference that turns communication delay into useful computation by verifying multiple candidate tokens in parallel across distributed nodes. We further introduce an adaptive speculative verification strategy that adjusts acceptance thresholds by token-level semantic importance, delivering an additional 15% to 20% end-to-end speedup without retraining. In theory, DSD reduces cross-node communication cost by approximately (N-1)t1(k-1)/k, where t1 is per-link latency and k is the average number of tokens accepted per round. In practice, DSD achieves up to 2.56x speedup on HumanEval and 2.59x on GSM8K, surpassing the Eagle3 baseline while preserving accuracy. These results show that adapting speculative decoding for decentralized execution provides a system-level optimization that converts network stalls into throughput, enabling faster distributed LLM inference with no model retraining or architectural changes.


翻译:推测解码通过使用轻量级草稿模型提出候选标记,再由更强的目标模型进行验证,从而加速大型语言模型(LLM)的推理过程。尽管该方法在集中式系统中表现有效,但其在去中心化环境中的行为仍缺乏充分研究,其中网络延迟通常主导计算开销。我们提出了去中心化推测解码(DSD),一种用于去中心化推理的即插即用框架,通过在多节点并行验证多个候选标记,将通信延迟转化为有效计算。我们进一步引入了一种自适应推测验证策略,该策略根据标记级别的语义重要性动态调整接受阈值,在不重新训练模型的情况下实现了额外15%至20%的端到端加速。理论上,DSD将跨节点通信成本降低约(N-1)t1(k-1)/k,其中t1为单链路延迟,k为每轮平均接受的标记数。在实际测试中,DSD在HumanEval上实现了最高2.56倍的加速,在GSM8K上达到2.59倍,超越了Eagle3基线并保持了准确性。这些结果表明,将推测解码适配于去中心化执行提供了一种系统级优化方案,将网络阻塞转化为吞吐量,从而在不重新训练模型或改变架构的前提下,实现了更快的分布式LLM推理。

0
下载
关闭预览

相关内容

AAAI 2022 | ProtGNN:自解释图神经网络
专知
10+阅读 · 2022年2月28日
【NeurIPS2019】图变换网络:Graph Transformer Network
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员