【普林斯顿博士论文】大型模型的高效推理 - 专知VIP

会员服务 ·

1

普林斯顿大学 (Princeton University) · 大模型 · 高效推理 · 博士论文 ·

【普林斯顿博士论文】大型模型的高效推理

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

包括大型语言模型（LLMs）和扩散模型在内的大规模模型的快速发展，正在改变人工智能的格局，但其广泛部署仍受计算效率、内存带宽和资源利用等关键瓶颈的制约。本文系统性地研究了这些挑战，并提出了多种新方法，在不同的大模型推理任务中优化推理性能，在速度、内存和计算需求之间实现平衡，同时不牺牲输出质量。对于 LLMs，一个核心瓶颈是自回归解码过程中的内存带宽限制：顺序生成 token 会因模型参数的重复传输而带来大量开销。为此，我们提出 Medusa 框架，通过增加并行解码头并采用基于树的注意力机制，实现同时预测多个 token，从而减少 2.3–2.8× 的解码步骤，在保持输出质量的前提下显著加速推理。此外，我们还针对高效部署多个微调模型的问题，提出 BitDelta 方法，将微调模型的权重差（delta）压缩为 1 位（single bit），在不降低性能的前提下将 GPU 内存占用减少超过 10×，从而支持高效的多租户部署，实现定制化模型的更快、更经济的服务。除了面向硬件的优化，我们还探索了系统级的协同优化，以提升大模型推理的整体效率。ToolMaker 提出了一个闭环框架，由一个强大的 LLM 生成可复用的工具（如 Python 函数），再由更轻量的模型调用这些工具进行问题求解。这种在资源密集的工具创建与成本更低的工具使用之间的分工，有助于降低推理成本并提升模型的可扩展性。在扩散模型领域，由于分辨率提升会显著增加计算成本，我们提出 Distrifusion 分布式推理框架，利用扩散步骤间的时间一致性（temporal coherence），复用预计算的特征图，并通过流水线机制减少通信开销，从而在多 GPU 环境下实现最高 6.1× 的加速。进一步地，SVDQuant 提出针对扩散模型的 4 比特量化方法，能够利用现代张量核心（tensor cores）显著提升计算吞吐量，同时不降低图像质量。总体而言，这些工作针对不同模型架构与部署场景的关键瓶颈提出了系统性的解决方案，并已在工业界得到广泛应用。

成为VIP会员查看完整内容

1

相关内容

普林斯顿大学 (Princeton University)

普林斯顿大学 (Princeton University)

普林斯顿大学，又译 普林斯敦大学，常被直接称为 普林斯顿，是美国一所私立研究型大学，现为八所常青藤学校之一，绰号为老虎。

【伯克利博士论文】基于代码结构感知方法推进代码生成大型语言模型的发展

【伯克利博士论文】基于代码结构感知方法推进代码生成大型语言模型的发展

专知会员服务

22+阅读 · 7月21日

【斯坦福博士论文】计算受限的持续学习：基础与算法

【斯坦福博士论文】计算受限的持续学习：基础与算法

专知会员服务

19+阅读 · 6月23日

【伯克利博士论文】机器学习中的安全性、鲁棒性与可解释性

【伯克利博士论文】机器学习中的安全性、鲁棒性与可解释性

专知会员服务

17+阅读 · 5月31日

【阿姆斯特丹博士论文】带约束学习的优化算法

【阿姆斯特丹博士论文】带约束学习的优化算法

专知会员服务

17+阅读 · 4月4日

【斯坦福博士论文】通过深度状态空间方法推进序列建模

【斯坦福博士论文】通过深度状态空间方法推进序列建模

专知会员服务

27+阅读 · 1月5日

【斯坦福博士论文】探索自监督学习中对比学习的理论基础

【斯坦福博士论文】探索自监督学习中对比学习的理论基础

专知会员服务

34+阅读 · 2024年12月21日

【斯坦福博士论文】推动医学人工智能发展的数据高效算法

【斯坦福博士论文】推动医学人工智能发展的数据高效算法

专知会员服务

28+阅读 · 2024年12月1日

【牛津大学博士论文】观察性因果机器学习中的结构性和统计不确定性

【牛津大学博士论文】观察性因果机器学习中的结构性和统计不确定性

专知会员服务

30+阅读 · 2024年9月24日

【斯坦福博士论文】弥合自动化逻辑推理与机器学习之间的差距

【斯坦福博士论文】弥合自动化逻辑推理与机器学习之间的差距

专知会员服务

24+阅读 · 2024年7月6日

【牛津大学博士论文】深度主动学习与数据子集选择的进展：信息论直觉下的统一原则

【牛津大学博士论文】深度主动学习与数据子集选择的进展：信息论直觉下的统一原则

专知会员服务

43+阅读 · 2024年3月20日

图怎么用强化学习？东北大学最新《图强化学习》综述论文，54页pdf阐述GRL方法、数据与应用

图怎么用强化学习？东北大学最新《图强化学习》综述论文，54页pdf阐述GRL方法、数据与应用

专知

12+阅读 · 2022年4月14日

【华为诺亚新论文】基于图上下文知识融入的预训练语言模型

【华为诺亚新论文】基于图上下文知识融入的预训练语言模型

专知

23+阅读 · 2019年12月8日

论文浅尝 | 如何利用外部知识提高预训练模型在阅读理解任务中的性能

论文浅尝 | 如何利用外部知识提高预训练模型在阅读理解任务中的性能

开放知识图谱

10+阅读 · 2019年10月29日

【机器学习】深入剖析机器学习中的统计思想

【机器学习】深入剖析机器学习中的统计思想

产业智能官

16+阅读 · 2019年1月24日

【CAA智库】陈杰院士：有人/无人系统自主协同的关键科学问题

【CAA智库】陈杰院士：有人/无人系统自主协同的关键科学问题

中国自动化学会

12+阅读 · 2018年9月21日

论文浅尝 | 变分知识图谱推理：在KG中引入变分推理框架

论文浅尝 | 变分知识图谱推理：在KG中引入变分推理框架

开放知识图谱

24+阅读 · 2018年4月10日

【干货】机器学习中的五种回归模型及其优缺点

【干货】机器学习中的五种回归模型及其优缺点

专知

21+阅读 · 2018年3月29日

论文浅尝 | 基于神经网络的知识推理

论文浅尝 | 基于神经网络的知识推理

开放知识图谱

14+阅读 · 2018年3月12日

【论文读书笔记】个性化序列推荐：卷积序列嵌入方法

【论文读书笔记】个性化序列推荐：卷积序列嵌入方法

专知

17+阅读 · 2018年2月8日

推荐｜机器学习中的模型评价、模型选择和算法选择！

推荐｜机器学习中的模型评价、模型选择和算法选择！

全球人工智能

10+阅读 · 2018年2月5日

贝叶斯网分解理论及其应用

国家自然科学基金

9+阅读 · 2017年12月31日

信息不完全的双边匹配决策方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

不完备/冗余数据下复杂产品关联建模设计方法及其应用

国家自然科学基金

1+阅读 · 2015年12月31日

数据内在结构和稀疏保持的大间隔分类方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向多源大数据的鲁棒聚类模型与算法研究

国家自然科学基金

6+阅读 · 2015年12月31日

复杂数据下带有形状约束的半参数模型统计推断

国家自然科学基金

2+阅读 · 2014年12月31日

上市公司文本信息分析研究：基于大数据的视角

国家自然科学基金

8+阅读 · 2014年12月31日

机制转化下的最优停时问题研究---以金融中投资决策分析为例

国家自然科学基金

1+阅读 · 2014年12月31日

高维稀疏统计模型中的变量选择与检验

国家自然科学基金

1+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

171+阅读 · 2023年4月20日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

215+阅读 · 2023年4月7日

A Survey on Graph Diffusion Models: Generative AI in Science for Molecule, Protein and Material

Arxiv

81+阅读 · 2023年4月4日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

474+阅读 · 2023年3月31日

Unleashing the Power of Edge-Cloud Generative AI in Mobile Networks: A Survey of AIGC Services

Arxiv

146+阅读 · 2023年3月29日

ChatGPT is a Knowledgeable but Inexperienced Solver: An Investigation of Commonsense Problem in Large Language Models

Arxiv

61+阅读 · 2023年3月29日

Nature Language Reasoning, A Survey

Arxiv

78+阅读 · 2023年3月26日

Knowledge Graphs: Opportunities and Challenges

Arxiv

172+阅读 · 2023年3月24日

Sparks of Artificial General Intelligence: Early experiments with GPT-4

Arxiv

51+阅读 · 2023年3月22日

Data-centric Artificial Intelligence: A Survey

Arxiv

24+阅读 · 2023年3月17日

VIP会员

相关主题

普林斯顿大学 (Princeton University)

相关VIP内容

【伯克利博士论文】基于代码结构感知方法推进代码生成大型语言模型的发展

【伯克利博士论文】基于代码结构感知方法推进代码生成大型语言模型的发展

专知会员服务

22+阅读 · 7月21日

【斯坦福博士论文】计算受限的持续学习：基础与算法

【斯坦福博士论文】计算受限的持续学习：基础与算法

专知会员服务

19+阅读 · 6月23日

【伯克利博士论文】机器学习中的安全性、鲁棒性与可解释性

【伯克利博士论文】机器学习中的安全性、鲁棒性与可解释性

专知会员服务

17+阅读 · 5月31日

【阿姆斯特丹博士论文】带约束学习的优化算法

【阿姆斯特丹博士论文】带约束学习的优化算法

专知会员服务

17+阅读 · 4月4日

【斯坦福博士论文】通过深度状态空间方法推进序列建模

【斯坦福博士论文】通过深度状态空间方法推进序列建模

专知会员服务

27+阅读 · 1月5日

【斯坦福博士论文】探索自监督学习中对比学习的理论基础

【斯坦福博士论文】探索自监督学习中对比学习的理论基础

专知会员服务

34+阅读 · 2024年12月21日

【斯坦福博士论文】推动医学人工智能发展的数据高效算法

【斯坦福博士论文】推动医学人工智能发展的数据高效算法

专知会员服务

28+阅读 · 2024年12月1日

【牛津大学博士论文】观察性因果机器学习中的结构性和统计不确定性

【牛津大学博士论文】观察性因果机器学习中的结构性和统计不确定性

专知会员服务

30+阅读 · 2024年9月24日

【斯坦福博士论文】弥合自动化逻辑推理与机器学习之间的差距

【斯坦福博士论文】弥合自动化逻辑推理与机器学习之间的差距

专知会员服务

24+阅读 · 2024年7月6日

【牛津大学博士论文】深度主动学习与数据子集选择的进展：信息论直觉下的统一原则

【牛津大学博士论文】深度主动学习与数据子集选择的进展：信息论直觉下的统一原则

专知会员服务

43+阅读 · 2024年3月20日

热门VIP内容

开通专知VIP会员享更多权益服务

从社会学实验到行为仿真：理解基于Agent的观点动力学建模思维

中英文版《GPT-5 System Card速览》报告

ACL 2025 | 大模型结构化知识提示的泛化能力研究

【普林斯顿博士论文】大型模型的高效推理

相关资讯

图怎么用强化学习？东北大学最新《图强化学习》综述论文，54页pdf阐述GRL方法、数据与应用

图怎么用强化学习？东北大学最新《图强化学习》综述论文，54页pdf阐述GRL方法、数据与应用

专知

12+阅读 · 2022年4月14日

【华为诺亚新论文】基于图上下文知识融入的预训练语言模型

【华为诺亚新论文】基于图上下文知识融入的预训练语言模型

专知

23+阅读 · 2019年12月8日

论文浅尝 | 如何利用外部知识提高预训练模型在阅读理解任务中的性能

论文浅尝 | 如何利用外部知识提高预训练模型在阅读理解任务中的性能

开放知识图谱

10+阅读 · 2019年10月29日

【机器学习】深入剖析机器学习中的统计思想

【机器学习】深入剖析机器学习中的统计思想

产业智能官

16+阅读 · 2019年1月24日

【CAA智库】陈杰院士：有人/无人系统自主协同的关键科学问题

【CAA智库】陈杰院士：有人/无人系统自主协同的关键科学问题

中国自动化学会

12+阅读 · 2018年9月21日

论文浅尝 | 变分知识图谱推理：在KG中引入变分推理框架

论文浅尝 | 变分知识图谱推理：在KG中引入变分推理框架

开放知识图谱

24+阅读 · 2018年4月10日

【干货】机器学习中的五种回归模型及其优缺点

【干货】机器学习中的五种回归模型及其优缺点

专知

21+阅读 · 2018年3月29日

论文浅尝 | 基于神经网络的知识推理

论文浅尝 | 基于神经网络的知识推理

开放知识图谱

14+阅读 · 2018年3月12日

【论文读书笔记】个性化序列推荐：卷积序列嵌入方法

【论文读书笔记】个性化序列推荐：卷积序列嵌入方法

专知

17+阅读 · 2018年2月8日

推荐｜机器学习中的模型评价、模型选择和算法选择！

推荐｜机器学习中的模型评价、模型选择和算法选择！

全球人工智能

10+阅读 · 2018年2月5日

相关基金

贝叶斯网分解理论及其应用

国家自然科学基金

9+阅读 · 2017年12月31日

信息不完全的双边匹配决策方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

不完备/冗余数据下复杂产品关联建模设计方法及其应用

国家自然科学基金

1+阅读 · 2015年12月31日

数据内在结构和稀疏保持的大间隔分类方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向多源大数据的鲁棒聚类模型与算法研究

国家自然科学基金

6+阅读 · 2015年12月31日

复杂数据下带有形状约束的半参数模型统计推断

国家自然科学基金

2+阅读 · 2014年12月31日

上市公司文本信息分析研究：基于大数据的视角

国家自然科学基金

8+阅读 · 2014年12月31日

机制转化下的最优停时问题研究---以金融中投资决策分析为例

国家自然科学基金

1+阅读 · 2014年12月31日

高维稀疏统计模型中的变量选择与检验

国家自然科学基金

1+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

相关论文

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

171+阅读 · 2023年4月20日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

215+阅读 · 2023年4月7日

A Survey on Graph Diffusion Models: Generative AI in Science for Molecule, Protein and Material

Arxiv

81+阅读 · 2023年4月4日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

474+阅读 · 2023年3月31日

Unleashing the Power of Edge-Cloud Generative AI in Mobile Networks: A Survey of AIGC Services

Arxiv

146+阅读 · 2023年3月29日

ChatGPT is a Knowledgeable but Inexperienced Solver: An Investigation of Commonsense Problem in Large Language Models

Arxiv

61+阅读 · 2023年3月29日

Nature Language Reasoning, A Survey

Arxiv

78+阅读 · 2023年3月26日

Knowledge Graphs: Opportunities and Challenges

Arxiv

172+阅读 · 2023年3月24日

Sparks of Artificial General Intelligence: Early experiments with GPT-4

Arxiv

51+阅读 · 2023年3月22日

Data-centric Artificial Intelligence: A Survey

Arxiv

24+阅读 · 2023年3月17日

微信扫码咨询专知VIP会员