用于生成式人工智能的大型语言模型(LLMs)取得了显著进展,逐步演化为复杂且多功能的工具,广泛应用于各类领域与场景。然而,由于其庞大的参数规模带来的高内存开销,以及注意力机制所需的高计算资源,使得在实现低延迟与高吞吐量的LLM推理服务过程中面临诸多挑战。得益于一系列突破性研究的推动,近年来该领域取得了飞跃性进展。本文对相关方法进行了全面综述,涵盖了基础的实例级优化方法、深入的集群级策略、新兴的场景导向方案,以及其他一些虽较边缘但同样重要的方面。

在实例级方面,我们回顾了模型部署、请求调度、解码长度预测、存储管理,以及计算资源解耦(Disaggregation)等技术。在集群级方面,我们探讨了GPU集群部署、多实例负载均衡和云服务解决方案。针对新兴应用场景,我们围绕具体任务、模块及辅助方法进行组织与讨论。为确保综述的全面性,我们还特别指出了若干细分但关键的研究方向。最后,本文提出了若干可能的未来研究路径,以进一步推动LLM推理服务的发展。

1 引言

随着开源大型语言模型(LLMs)的快速发展,近年来模型架构与功能的每周更新已成为常态。从 Huggingface 的下载数据中可明显看出这些模型的旺盛需求——诸如 Mistral-Small-24B-Instruct-2501(Mistral, 2025)、phi-4(Abdin 等, 2024)、Llama 3.3-70B-Instruct(Grattafiori 等, 2024)等模型的下载量达到数十万次,而 DeepSeek-V3(DeepSeek-AI 等, 2024)和 DeepSeek-R1(DeepSeek-AI 等, 2025)等模型的下载量在近几个月已达到数百万次。 然而,在部署这些模型时,其大规模参数和注意力机制对内存和计算资源提出了极高要求,这对实现低延迟和高吞吐量的请求处理带来了重大挑战。为了满足服务级别目标(SLOs),这些挑战推动了推理服务优化领域在多个方向上的深入研究。

本文系统性地综述了LLM推理服务的方法,并依照层次结构进行组织,涵盖了从实例级优化、集群级策略,到新兴场景与其他重要方向的研究,如图1所示。 实例级优化(§3) 从模型部署(§3.1)开始,主要解决单个GPU内存不足时的跨设备参数分布问题。随后是请求调度(§3.2),通过解码长度预测(§3.3)优先处理较短请求,以降低整体延迟。动态批次管理机制用于在迭代推理过程中进行请求插入与剔除。键值缓存(KV Cache)(§3.4)可减少重复计算,但在存储效率、复用策略与压缩技术方面仍面临挑战。鉴于预填阶段与解码阶段的特性差异,近年来提出了解耦式架构(§3.5),以优化这两个阶段的处理效率。 集群级优化 主要聚焦于部署策略(§4),包括异构硬件下的成本效益型GPU集群配置,以及面向服务的集群调度方案(§4.1)。可扩展性带来了负载均衡(§4.2)方面的挑战,旨在避免分布式实例间的资源浪费或过载问题。当本地硬件资源无法满足部署需求时,基于云的解决方案(§4.3)则成为满足动态LLM服务需求的关键手段。 新兴场景(§5) 涉及诸多先进任务与方法,包括长上下文处理(§5.1)、检索增强生成(RAG, §5.2)、专家混合机制(MoE, §5.3)、低秩适配(LoRA, §5.4)、预测解码(§5.5)、增强型LLM(§5.6),以及测试时推理(Test-Time Reasoning, §5.7),这些技术都需要模型具备高度的适应性以满足不断变化的需求。 最后,本文还详细探讨了其他重要方向(§6),涵盖硬件(§6.1)、隐私(§6.2)、模拟器(§6.3)、公平性(§6.4)和能效(§6.5)等较为边缘但关键的领域,旨在推动LLM推理服务的全面发展。 尽管已有多项综述工作(Miao 等, 2023;Yuan 等, 2024;Zhou 等, 2024;Li 等, 2024a)为该领域打下了基础,但在深度、广度或时效性方面仍存在不足,难以覆盖快速演进的研究动态。为此,本文构建了一个系统化、细粒度的前沿方法分类体系,并提出若干具有前瞻性的研究方向,力图弥补现有文献的空白。

成为VIP会员查看完整内容
0

相关内容

大语言模型是基于海量文本数据训练的深度学习模型。它不仅能够生成自然语言文本,还能够深入理解文本含义,处理各种自然语言任务,如文本摘要、问答、翻译等。2023年,大语言模型及其在人工智能领域的应用已成为全球科技研究的热点,其在规模上的增长尤为引人注目,参数量已从最初的十几亿跃升到如今的一万亿。参数量的提升使得模型能够更加精细地捕捉人类语言微妙之处,更加深入地理解人类语言的复杂性。在过去的一年里,大语言模型在吸纳新知识、分解复杂任务以及图文对齐等多方面都有显著提升。随着技术的不断成熟,它将不断拓展其应用范围,为人类提供更加智能化和个性化的服务,进一步改善人们的生活和生产方式。
面向统计学家的大型语言模型概述
专知会员服务
31+阅读 · 3月16日
多智能体协作机制:大语言模型综述
专知会员服务
58+阅读 · 1月14日
表格数据的语言建模:基础、技术与演变综述
专知会员服务
38+阅读 · 2024年8月23日
面向强化学习的可解释性研究综述
专知会员服务
43+阅读 · 2024年7月30日
大语言模型增强知识表示学习综述
专知会员服务
67+阅读 · 2024年7月2日
知识图谱与大模型融合综述
专知会员服务
113+阅读 · 2024年6月30日
大型语言模型时代AIOps在故障管理中的综述
专知会员服务
41+阅读 · 2024年6月23日
《高效多模态大型语言模型》综述
专知会员服务
70+阅读 · 2024年5月20日
《多模态大型语言模型进化》最新综述
专知会员服务
101+阅读 · 2024年2月23日
LLMCad:快速可扩展的设备上大型语言模型推理
专知会员服务
35+阅读 · 2023年9月11日
数据受限条件下的多模态处理技术综述
专知
19+阅读 · 2022年7月16日
基于模型的强化学习综述
专知
37+阅读 · 2022年7月13日
时空数据挖掘:综述
专知
31+阅读 · 2022年6月30日
「强化学习可解释性」最新2022综述
专知
11+阅读 · 2022年1月16日
硬件加速神经网络综述
计算机研究与发展
26+阅读 · 2019年2月1日
大数据分析研究组开源Easy Machine Learning系统
中国科学院网络数据重点实验室
17+阅读 · 2017年6月13日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
Arxiv
168+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
453+阅读 · 2023年3月31日
Arxiv
76+阅读 · 2023年3月26日
Arxiv
167+阅读 · 2023年3月24日
Arxiv
24+阅读 · 2023年3月17日
VIP会员
相关VIP内容
面向统计学家的大型语言模型概述
专知会员服务
31+阅读 · 3月16日
多智能体协作机制:大语言模型综述
专知会员服务
58+阅读 · 1月14日
表格数据的语言建模:基础、技术与演变综述
专知会员服务
38+阅读 · 2024年8月23日
面向强化学习的可解释性研究综述
专知会员服务
43+阅读 · 2024年7月30日
大语言模型增强知识表示学习综述
专知会员服务
67+阅读 · 2024年7月2日
知识图谱与大模型融合综述
专知会员服务
113+阅读 · 2024年6月30日
大型语言模型时代AIOps在故障管理中的综述
专知会员服务
41+阅读 · 2024年6月23日
《高效多模态大型语言模型》综述
专知会员服务
70+阅读 · 2024年5月20日
《多模态大型语言模型进化》最新综述
专知会员服务
101+阅读 · 2024年2月23日
LLMCad:快速可扩展的设备上大型语言模型推理
专知会员服务
35+阅读 · 2023年9月11日
相关资讯
数据受限条件下的多模态处理技术综述
专知
19+阅读 · 2022年7月16日
基于模型的强化学习综述
专知
37+阅读 · 2022年7月13日
时空数据挖掘:综述
专知
31+阅读 · 2022年6月30日
「强化学习可解释性」最新2022综述
专知
11+阅读 · 2022年1月16日
硬件加速神经网络综述
计算机研究与发展
26+阅读 · 2019年2月1日
大数据分析研究组开源Easy Machine Learning系统
中国科学院网络数据重点实验室
17+阅读 · 2017年6月13日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
微信扫码咨询专知VIP会员