Efficiency, as a critical practical challenge for LLM-driven agentic and reasoning systems, is increasingly constrained by the inherent latency of autoregressive (AR) decoding. Speculative decoding mitigates this cost through a draft-verify scheme, yet existing approaches rely on AR draft models (a.k.a., drafters), which introduce two fundamental issues: (1) step-wise uncertainty accumulation leads to a progressive collapse of trust between the target model and the drafter, and (2) inherently sequential decoding of AR drafters. Together, these factors cause limited speedups. In this paper, we show that a diffusion large language model (dLLM) drafters can naturally overcome these issues through its fundamentally different probabilistic modeling and efficient parallel decoding strategy. Building on this insight, we introduce DEER, an efficient speculative decoding framework that drafts with diffusion and verifies with AR models. To enable high-quality drafting, DEER employs a two-stage training pipeline to align the dLLM-based drafters with the target AR model, and further adopts single-step decoding to generate long draft segments. Experiments show DEER reaches draft acceptance lengths of up to 32 tokens, far surpassing the 10 tokens achieved by EAGLE-3. Moreover, on HumanEval with Qwen3-30B-A3B, DEER attains a 5.54x speedup, while EAGLE-3 achieves only 2.41x. Code, model, demo, etc, will be available at https://czc726.github.io/DEER/


翻译:效率作为大语言模型驱动的智能体与推理系统面临的关键实践挑战,正日益受到自回归解码固有延迟的限制。推测式解码通过草稿-验证方案缓解了这一成本,但现有方法依赖于自回归草稿模型(即草稿生成器),这引入了两个根本性问题:(1)逐步累积的不确定性导致目标模型与草稿生成器之间的信任逐渐瓦解;(2)自回归草稿生成器固有的顺序解码特性。这些因素共同导致了有限的加速效果。本文提出,扩散大语言模型草稿生成器通过其根本不同的概率建模与高效并行解码策略,能够自然克服这些问题。基于这一洞见,我们提出了DEER,一种高效的推测式解码框架,采用扩散模型生成草稿,并利用自回归模型进行验证。为实现高质量的草稿生成,DEER采用两阶段训练流程对齐基于扩散大语言模型的草稿生成器与目标自回归模型,并进一步采用单步解码策略生成长草稿片段。实验表明,DEER的草稿接受长度可达32个词元,远超EAGLE-3的10个词元。此外,在HumanEval基准测试中,使用Qwen3-30B-A3B模型时,DEER实现了5.54倍的加速,而EAGLE-3仅达到2.41倍。代码、模型及演示等资源将在https://czc726.github.io/DEER/发布。

0
下载
关闭预览

相关内容

【AAAI2023】基于Dirichlet元模型的事后不确定性学习
专知会员服务
16+阅读 · 2022年12月16日
LibRec 每周算法:LDA主题模型
LibRec智能推荐
29+阅读 · 2017年12月4日
语义分割中的深度学习方法全解:从FCN、SegNet到DeepLab
炼数成金订阅号
26+阅读 · 2017年7月10日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员