高效大语言模型推理服务综述

用于生成式人工智能的大型语言模型（LLMs）取得了显著进展，逐步演化为复杂且多功能的工具，广泛应用于各类领域与场景。然而，由于其庞大的参数规模带来的高内存开销，以及注意力机制所需的高计算资源，使得在实现低延迟与高吞吐量的LLM推理服务过程中面临诸多挑战。得益于一系列突破性研究的推动，近年来该领域取得了飞跃性进展。本文对相关方法进行了全面综述，涵盖了基础的实例级优化方法、深入的集群级策略、新兴的场景导向方案，以及其他一些虽较边缘但同样重要的方面。

在实例级方面，我们回顾了模型部署、请求调度、解码长度预测、存储管理，以及计算资源解耦（Disaggregation）等技术。在集群级方面，我们探讨了GPU集群部署、多实例负载均衡和云服务解决方案。针对新兴应用场景，我们围绕具体任务、模块及辅助方法进行组织与讨论。为确保综述的全面性，我们还特别指出了若干细分但关键的研究方向。最后，本文提出了若干可能的未来研究路径，以进一步推动LLM推理服务的发展。

1 引言

随着开源大型语言模型（LLMs）的快速发展，近年来模型架构与功能的每周更新已成为常态。从 Huggingface 的下载数据中可明显看出这些模型的旺盛需求——诸如 Mistral-Small-24B-Instruct-2501（Mistral, 2025）、phi-4（Abdin 等, 2024）、Llama 3.3-70B-Instruct（Grattafiori 等, 2024）等模型的下载量达到数十万次，而 DeepSeek-V3（DeepSeek-AI 等, 2024）和 DeepSeek-R1（DeepSeek-AI 等, 2025）等模型的下载量在近几个月已达到数百万次。然而，在部署这些模型时，其大规模参数和注意力机制对内存和计算资源提出了极高要求，这对实现低延迟和高吞吐量的请求处理带来了重大挑战。为了满足服务级别目标（SLOs），这些挑战推动了推理服务优化领域在多个方向上的深入研究。

本文系统性地综述了LLM推理服务的方法，并依照层次结构进行组织，涵盖了从实例级优化、集群级策略，到新兴场景与其他重要方向的研究，如图1所示。 实例级优化（§3） 从模型部署（§3.1）开始，主要解决单个GPU内存不足时的跨设备参数分布问题。随后是请求调度（§3.2），通过解码长度预测（§3.3）优先处理较短请求，以降低整体延迟。动态批次管理机制用于在迭代推理过程中进行请求插入与剔除。键值缓存（KV Cache）（§3.4）可减少重复计算，但在存储效率、复用策略与压缩技术方面仍面临挑战。鉴于预填阶段与解码阶段的特性差异，近年来提出了解耦式架构（§3.5），以优化这两个阶段的处理效率。 集群级优化 主要聚焦于部署策略（§4），包括异构硬件下的成本效益型GPU集群配置，以及面向服务的集群调度方案（§4.1）。可扩展性带来了负载均衡（§4.2）方面的挑战，旨在避免分布式实例间的资源浪费或过载问题。当本地硬件资源无法满足部署需求时，基于云的解决方案（§4.3）则成为满足动态LLM服务需求的关键手段。 新兴场景（§5） 涉及诸多先进任务与方法，包括长上下文处理（§5.1）、检索增强生成（RAG, §5.2）、专家混合机制（MoE, §5.3）、低秩适配（LoRA, §5.4）、预测解码（§5.5）、增强型LLM（§5.6），以及测试时推理（Test-Time Reasoning, §5.7），这些技术都需要模型具备高度的适应性以满足不断变化的需求。最后，本文还详细探讨了其他重要方向（§6），涵盖硬件（§6.1）、隐私（§6.2）、模拟器（§6.3）、公平性（§6.4）和能效（§6.5）等较为边缘但关键的领域，旨在推动LLM推理服务的全面发展。尽管已有多项综述工作（Miao 等, 2023；Yuan 等, 2024；Zhou 等, 2024；Li 等, 2024a）为该领域打下了基础，但在深度、广度或时效性方面仍存在不足，难以覆盖快速演进的研究动态。为此，本文构建了一个系统化、细粒度的前沿方法分类体系，并提出若干具有前瞻性的研究方向，力图弥补现有文献的空白。

成为VIP会员查看完整内容

相关内容

大语言模型

关注 53

大语言模型是基于海量文本数据训练的深度学习模型。它不仅能够生成自然语言文本，还能够深入理解文本含义，处理各种自然语言任务，如文本摘要、问答、翻译等。2023年，大语言模型及其在人工智能领域的应用已成为全球科技研究的热点，其在规模上的增长尤为引人注目，参数量已从最初的十几亿跃升到如今的一万亿。参数量的提升使得模型能够更加精细地捕捉人类语言微妙之处，更加深入地理解人类语言的复杂性。在过去的一年里，大语言模型在吸纳新知识、分解复杂任务以及图文对齐等多方面都有显著提升。随着技术的不断成熟，它将不断拓展其应用范围，为人类提供更加智能化和个性化的服务，进一步改善人们的生活和生产方式。

面向统计学家的大型语言模型概述

专知会员服务

31+阅读 · 3月16日

多智能体协作机制：大语言模型综述

专知会员服务

58+阅读 · 1月14日

表格数据的语言建模：基础、技术与演变综述

专知会员服务

38+阅读 · 2024年8月23日

面向强化学习的可解释性研究综述

专知会员服务

43+阅读 · 2024年7月30日