包括大型语言模型(LLMs)和扩散模型在内的大规模模型的快速发展,正在改变人工智能的格局,但其广泛部署仍受计算效率、内存带宽和资源利用等关键瓶颈的制约。本文系统性地研究了这些挑战,并提出了多种新方法,在不同的大模型推理任务中优化推理性能,在速度、内存和计算需求之间实现平衡,同时不牺牲输出质量。 对于 LLMs,一个核心瓶颈是自回归解码过程中的内存带宽限制:顺序生成 token 会因模型参数的重复传输而带来大量开销。为此,我们提出 Medusa 框架,通过增加并行解码头并采用基于树的注意力机制,实现同时预测多个 token,从而减少 2.3–2.8× 的解码步骤,在保持输出质量的前提下显著加速推理。 此外,我们还针对高效部署多个微调模型的问题,提出 BitDelta 方法,将微调模型的权重差(delta)压缩为 1 位(single bit),在不降低性能的前提下将 GPU 内存占用减少超过 10×,从而支持高效的多租户部署,实现定制化模型的更快、更经济的服务。 除了面向硬件的优化,我们还探索了系统级的协同优化,以提升大模型推理的整体效率。ToolMaker 提出了一个闭环框架,由一个强大的 LLM 生成可复用的工具(如 Python 函数),再由更轻量的模型调用这些工具进行问题求解。这种在资源密集的工具创建与成本更低的工具使用之间的分工,有助于降低推理成本并提升模型的可扩展性。 在扩散模型领域,由于分辨率提升会显著增加计算成本,我们提出 Distrifusion 分布式推理框架,利用扩散步骤间的时间一致性(temporal coherence),复用预计算的特征图,并通过流水线机制减少通信开销,从而在多 GPU 环境下实现最高 6.1× 的加速。进一步地,SVDQuant 提出针对扩散模型的 4 比特量化方法,能够利用现代张量核心(tensor cores)显著提升计算吞吐量,同时不降低图像质量。 总体而言,这些工作针对不同模型架构与部署场景的关键瓶颈提出了系统性的解决方案,并已在工业界得到广泛应用。

成为VIP会员查看完整内容
1

相关内容

普林斯顿大学,又译 普林斯敦大学,常被直接称为 普林斯顿,是美国一所私立研究型大学,现为八所常青藤学校之一,绰号为老虎。
【阿姆斯特丹博士论文】带约束学习的优化算法
【机器学习】深入剖析机器学习中的统计思想
产业智能官
16+阅读 · 2019年1月24日
论文浅尝 | 变分知识图谱推理:在KG中引入变分推理框架
论文浅尝 | 基于神经网络的知识推理
开放知识图谱
14+阅读 · 2018年3月12日
推荐|机器学习中的模型评价、模型选择和算法选择!
全球人工智能
10+阅读 · 2018年2月5日
国家自然科学基金
9+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Arxiv
171+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
474+阅读 · 2023年3月31日
Arxiv
78+阅读 · 2023年3月26日
Arxiv
172+阅读 · 2023年3月24日
Arxiv
24+阅读 · 2023年3月17日
VIP会员
相关基金
国家自然科学基金
9+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员