Yggdrasil：桥接动态推测与静态运行时以实现基于树的最优延迟大语言模型解码 (Yggdrasil: Bridging Dynamic Speculation and Static Runtime for Latency-Optimal Tree-Based LLM Decoding) - 专知论文

会员服务 ·

0

解码 · 最优 · 语言模型 · 系统 · 大语言模型 ·

2025 年 12 月 29 日

Yggdrasil: Bridging Dynamic Speculation and Static Runtime for Latency-Optimal Tree-Based LLM Decoding

翻译：Yggdrasil：桥接动态推测与静态运行时以实现基于树的最优延迟大语言模型解码

Yue Guan,Changming Yu,Shihan Fang,Weiming Hu,Zaifeng Pan,Zheng Wang,Zihan Liu,Yangjie Zhou,Yufei Ding,Minyi Guo,Jingwen Leng

from arxiv, Accepted by NeurIPS 2025

Speculative decoding improves LLM inference by generating and verifying multiple tokens in parallel, but existing systems suffer from suboptimal performance due to a mismatch between dynamic speculation and static runtime assumptions. We present Yggdrasil, a co-designed system that enables latency-optimal speculative decoding through context-aware tree drafting and compiler-friendly execution. Yggdrasil introduces an equal-growth tree structure for static graph compatibility, a latency-aware optimization objective for draft selection, and stage-based scheduling to reduce overhead. Yggdrasil supports unmodified LLMs and achieves up to $3.98\times$ speedup over state-of-the-art baselines across multiple hardware setups.

翻译：推测解码通过并行生成和验证多个令牌来改进大语言模型推理，但现有系统因动态推测与静态运行时假设不匹配而导致性能欠佳。我们提出了Yggdrasil，一个协同设计的系统，通过上下文感知的树状草稿生成和编译器友好的执行，实现了延迟最优的推测解码。Yggdrasil引入了用于静态图兼容的等增长树结构、用于草稿选择的延迟感知优化目标，以及基于阶段的调度以减少开销。Yggdrasil支持未经修改的大语言模型，并在多种硬件设置下相比最先进的基线实现了高达$3.98\times$的加速。

0

相关内容

【ICML2025】用于持续多模态指令微调的动态课程化LoRA专家混合机制

【ICML2025】用于持续多模态指令微调的动态课程化LoRA专家混合机制

专知会员服务

12+阅读 · 2025年6月17日

【NeurIPS2024】CA-SSLR：面向广义语音处理的条件感知自监督学习表征

【NeurIPS2024】CA-SSLR：面向广义语音处理的条件感知自监督学习表征

专知会员服务

15+阅读 · 2024年12月6日

《用于代码弱点识别的 LLVM 中间表示》CMU

《用于代码弱点识别的 LLVM 中间表示》CMU

专知会员服务

14+阅读 · 2022年12月12日

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

专知会员服务

25+阅读 · 2022年7月8日

【EMNLP2020】自然语言分类任务的自监督元学习

专知会员服务

30+阅读 · 2020年9月18日

【CVPR2021】CausalVAE: 引入因果结构的解耦表示学习

【CVPR2021】CausalVAE: 引入因果结构的解耦表示学习

专知

19+阅读 · 2021年3月28日

【CVPR2020-旷视】DPGN：分布传播图网络的小样本学习

【CVPR2020-旷视】DPGN：分布传播图网络的小样本学习

专知

13+阅读 · 2020年4月1日

【NeurIPS2019】图变换网络：Graph Transformer Network

【NeurIPS2019】图变换网络：Graph Transformer Network

专知

245+阅读 · 2019年11月18日

【语义分割】一文概览主要语义分割网络：FCN,SegNet,U-Net...

【语义分割】一文概览主要语义分割网络：FCN,SegNet,U-Net...

产业智能官

18+阅读 · 2018年7月26日

Facebook开源MUSE：多语言无监督和监督词向量库

Facebook开源MUSE：多语言无监督和监督词向量库

论智

20+阅读 · 2017年12月23日

语义Web知识库补全关键技术研究

国家自然科学基金

17+阅读 · 2017年12月31日

基于格值逻辑的语言真值α-群锁语义归结自动推理研究

国家自然科学基金

0+阅读 · 2015年12月31日

SDN数据平面中大规模流表的高性能查找方法研究

国家自然科学基金

4+阅读 · 2015年12月31日

基于自主学习的Ad hoc Agent序贯决策研究

国家自然科学基金

46+阅读 · 2015年12月31日

模糊认知集群优化的聚类算法

国家自然科学基金

8+阅读 · 2015年12月31日

ITDR: An Instruction Tuning Dataset for Enhancing Large Language Models in Recommendations

Arxiv

0+阅读 · 2025年12月30日

Verifiable Fine-Tuning for LLMs: Zero-Knowledge Training Proofs Bound to Data Provenance and Policy

Arxiv

0+阅读 · 2025年12月29日

JavisGPT: A Unified Multi-modal LLM for Sounding-Video Comprehension and Generation

Arxiv

0+阅读 · 2025年12月28日

MISA: Memory-Efficient LLMs Optimization with Module-wise Importance Sampling

Arxiv

0+阅读 · 2025年12月26日

Co-Evolution of Types and Dependencies: Towards Repository-Level Type Inference for Python Code

Arxiv

0+阅读 · 2025年12月25日

VIP会员

文章信息

相关主题

大语言模型

相关VIP内容

【ICML2025】用于持续多模态指令微调的动态课程化LoRA专家混合机制

【ICML2025】用于持续多模态指令微调的动态课程化LoRA专家混合机制

专知会员服务

12+阅读 · 2025年6月17日

【NeurIPS2024】CA-SSLR：面向广义语音处理的条件感知自监督学习表征

【NeurIPS2024】CA-SSLR：面向广义语音处理的条件感知自监督学习表征

专知会员服务

15+阅读 · 2024年12月6日

《用于代码弱点识别的 LLVM 中间表示》CMU

《用于代码弱点识别的 LLVM 中间表示》CMU

专知会员服务

14+阅读 · 2022年12月12日

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

专知会员服务

25+阅读 · 2022年7月8日

【EMNLP2020】自然语言分类任务的自监督元学习

专知会员服务

30+阅读 · 2020年9月18日

热门VIP内容

开通专知VIP会员享更多权益服务

生成式人工智能导论：可靠性、负责任开发及实际应用（第二版）

《2025财年美陆军转型倡议（ATI）部队结构与组织提案》

【CMU博士论文】分布偏移下的可信机器学习

智能体 EDA 的曙光：自主数字芯片设计综述

相关资讯

【CVPR2021】CausalVAE: 引入因果结构的解耦表示学习

【CVPR2021】CausalVAE: 引入因果结构的解耦表示学习

专知

19+阅读 · 2021年3月28日

【CVPR2020-旷视】DPGN：分布传播图网络的小样本学习

【CVPR2020-旷视】DPGN：分布传播图网络的小样本学习

专知

13+阅读 · 2020年4月1日

【NeurIPS2019】图变换网络：Graph Transformer Network

【NeurIPS2019】图变换网络：Graph Transformer Network

专知

245+阅读 · 2019年11月18日

【语义分割】一文概览主要语义分割网络：FCN,SegNet,U-Net...

【语义分割】一文概览主要语义分割网络：FCN,SegNet,U-Net...

产业智能官

18+阅读 · 2018年7月26日

Facebook开源MUSE：多语言无监督和监督词向量库

Facebook开源MUSE：多语言无监督和监督词向量库

论智

20+阅读 · 2017年12月23日

相关论文

ITDR: An Instruction Tuning Dataset for Enhancing Large Language Models in Recommendations

Arxiv

0+阅读 · 2025年12月30日

Verifiable Fine-Tuning for LLMs: Zero-Knowledge Training Proofs Bound to Data Provenance and Policy

Arxiv

0+阅读 · 2025年12月29日

JavisGPT: A Unified Multi-modal LLM for Sounding-Video Comprehension and Generation

Arxiv

0+阅读 · 2025年12月28日

MISA: Memory-Efficient LLMs Optimization with Module-wise Importance Sampling

Arxiv

0+阅读 · 2025年12月26日

Co-Evolution of Types and Dependencies: Towards Repository-Level Type Inference for Python Code

Arxiv

0+阅读 · 2025年12月25日

相关基金

语义Web知识库补全关键技术研究

国家自然科学基金

17+阅读 · 2017年12月31日

基于格值逻辑的语言真值α-群锁语义归结自动推理研究

国家自然科学基金

0+阅读 · 2015年12月31日

SDN数据平面中大规模流表的高性能查找方法研究

国家自然科学基金

4+阅读 · 2015年12月31日

基于自主学习的Ad hoc Agent序贯决策研究

国家自然科学基金

46+阅读 · 2015年12月31日

模糊认知集群优化的聚类算法

国家自然科学基金

8+阅读 · 2015年12月31日

微信扫码咨询专知VIP会员