大型语言模型(LLMs)的快速发展已成为转型各个领域、重塑人工通用智能领域风貌的驱动力。然而,这些模型不断增长的计算和存储需求提出了重大挑战,阻碍了学术研究和实际应用的进展。为了解决这些问题,已经开发了包括算法和硬件解决方案在内的多种方法,以提高LLMs的效率。本综述提供了一份全面回顾,专注于旨在提升LLM效率的算法进步。与通常仅关注特定领域,如训练或模型压缩的其他综述不同,本文审视了对LLMs端到端算法发展至关重要的多方面效率维度。具体而言,它涵盖了与效率相关的各种主题,包括规模定律、数据利用、架构创新、训练和微调策略,以及推理技术。本文旨在为研究人员和实践者提供一个宝贵的资源,为这一关键研究领域的未来创新奠定基础。

https://github.com/tding1/Efficient-LLM-Survey

大型语言模型(LLMs)[28, 111, 236, 302, 329],以其数十甚至数百亿参数的庞大规模[13, 24, 54]为特征,在人工智能领域已成为一个核心焦点。这些模型,如ChatGPT [1]和Claude [2]的应用所示,已在各种通用任务中展现出令人印象深刻的能力,例如文本摘要[303]、翻译[100]、问答[219],甚至基础编程[34],这在很大程度上归功于它们在自然语言理解方面的专长。虽然驱动它们卓越性能的确切机制仍是一个谜[341],但普遍认为它们的大规模赋予了它们新出现的能力[280],这在小型模型中未被观察到,并被视为实现人工通用智能(AGI)[5, 25]的关键步骤。尽管LLMs的大规模对于它们的能力至关重要(见图1),但它们也存在显著的缺点:由于高计算成本和内存要求[267, 295, 339, 342],它们的部署受到严重限制。训练这些模型所需的资源是巨大的,这在资源分配和模型设计方面造成了挑战。例如,探索不同架构或策略的成本变得过高[329]。此外,它们的大规模使它们不适合资源受限的环境,如边缘设备,从而缩小了应用范围[7]。这种计算负担也将LLMs的发展限制在资源丰富的大公司[24, 196, 210]。许多关键细节,如数据收集管道和训练方法,仍然是专有的,这阻碍了学术研究并为小公司带来挑战。此外,训练这些模型的环境影响不容忽视,引发了关于碳排放和伦理考虑的担忧[268, 270, 285]。因此,提高LLMs的效率正受到越来越多的重视。出于对更高效LLMs的迫切需求,本综述旨在提供对该主题的全面和最新理解。

在本文中,“效率”定义为在不影响模型性能的情况下优化计算和内存资源。采用整体方法,我们探索了对LLMs端到端发展至关重要的多个效率维度。这些维度涵盖了数据利用、架构设计、训练和微调策略以及推理技术,基本上涵盖了从算法和软件角度的模型开发整个流程。尽管已有一些综述专注于LLMs效率的特定方面,如数据[316]、训练[241, 333, 342]、微调[323]或推理[295, 339],但它们通常无法提供全面视图。其他作品,如[267],已为自然语言处理(NLP)的各种效率方面提供了宝贵的见解,但LLM领域的快速发展要求进行更新和全面的回顾。与此相反,我们的论文旨在提供关键方法论和技术的更全面和当前的概述,这些方法论和技术有助于高效LLMs的发展。为了提供对LLM效率多方面的全面理解,本综述的其余部分从算法角度组织如下:

• 第2节背景介绍了LLMs的核心概念,并概述了评估其效率相关的评价指标。 • 第3节预算效率考察了像规模定律这样的预测方法在优化给定资源约束下LLMs性能的作用。 • 第4节数据效率关注于优化数据利用的技术,从而在不影响性能的情况下减少资源消耗。 • 第5节 架构效率回顾了创新的架构设计,提供了对架构如何影响效率的详细考察。 • 第6节 训练和微调效率讨论了从头开始高效训练LLMs和针对特定下游任务微调预训练模型的策略。 • 第7节 推理效率探索了旨在加速推理速度和减少内存占用的模型压缩技术领域。 • 第8节 结论总结了本综述的主要发现,并讨论了它们对高效LLM发展的更广泛影响。LLM效率的这些不同维度的概念性概述在图2中呈现。

预算效率:缩放定律

大型语言模型(LLM)的性能受到各种因素的显著影响,包括训练数据、模型大小、体系结构、计算资源和训练方法本身。训练LLM需要大量的资源,使得用于优化这些因素的传统试错方法既不切实际又耗费资源。因此,在训练之前预测LLM的表现不仅是有益的,而且通常是必要的。这种预测方法可以更有效地规划和分配资源。例如,考虑一个计算资源有限的场景:我们如何最优地平衡模型大小和训练数据,以实现最小的目标函数值? 事先回答这些问题可以显著提高LLM训练过程的效率和效果。最近对大型语言模型(LLM)性能预测的研究主要集中在理解尺度规律。这条规律描述了LLM性能如何受到模型架构、神经模型大小、训练计算能力和可用数据等因素的影响。标度律的概念根植于预测模型泛化的统计力学方法中,有着悠久的历史,可以追溯到20世纪90年代初[11,18,95,235]。最近,在现代深度学习模型的背景下,其相关性被重新激发[10,26,101 - 103,106,124,188,221,248,260,262]。本节将深入研究应用于LLM的缩放律的最新进展和见解,强调这些模型在不同条件下的演变和表现。

数据效率

大规模模型对数据无止境的需求极大地推动了数据收集和准备行业的发展。然而,这种对大量数据集的依赖,往往是多年积累的,为模型训练带来了巨大的挑战。这不仅包括训练时间延长,而且由于大量耗电和需要更大的数据存储容量而导致成本上升。因此,找到在训练和验证阶段更有效地使用数据的方法是至关重要的。在本节中,我们将深入探讨提高数据效率的策略和考虑因素,解决如何最大限度地利用数据,同时降低相关成本和资源需求。 架构效率

最近,Transformer家族[269]已经成为语言建模的主要架构,因为它比RNN等递归方法具有很强的并行性[185]。然而,其巨大的计算成本使得整体架构在处理和处理长输入时效率低下。特别是,Transformer架构中的一个关键操作是注意力机制。它通常需要关于序列长度的二次复杂度来进行计算,因此在处理长文本输入时非常慢[99]。减少注意力操作所需的计算[261]成为提高架构效率的直接解决方案,对训练和推理阶段都有好处。为此,研究人员正在探索更有效的注意力[51,59,61]以及不同类型的位置编码[48,49,127,159,201,207,224,250]的解决方案,或利用模型内固有的稀疏性来避免在稀疏建模的前向计算期间激活所有参数[72,243]。此外,最近的一些工作直接用替代架构取代了注意力机制,将无注意力方法[62,199,205,254]引入到fold中。在本节中,我们将介绍这四个主要方向及其最新进展。 训练微调效率

LLM训练和调优技术的发展必须解决数据和模型规模不断增加所带来的挑战。本节深入探讨了对LLM的可扩展训练和调优都至关重要的效率方面,强调了重点关注的关键领域。记忆效率。大型transformer模型的参数数量快速增长,每两年增加约410倍,对内存提出了重大挑战。这种增长超过了GPU内存的扩展,在同一时期内,GPU内存仅增长了5倍(从16GB到80GB)。训练过程中的实际内存消耗远远超过原始参数数量,包括模型状态(参数、梯度、优化器状态)以及剩余状态(中间激活、临时缓冲区、内存碎片)。考虑到这些约束,单个GPU设置不足以处理整个模型,需要分布式训练方法,如张量并行(TP)和流水线并行(PP),以有效地进行内存管理。 计算效率。虽然分布式训练提供了加快大型模型训练的潜在好处,但它也引入了影响可扩展性的复杂性。一个值得注意的观察是,在多GPU训练中,每个GPU的FLOPs数量减少,与单GPU设置相比。这种减少源于在有效利用日益增多的计算资源方面所面临的挑战。因此,在训练过程中,可扩展性成为提高计算效率的关键元素,尤其是在多GPU环境中。通信效率。这方面涉及到在训练过程中不同设备或层之间的参数和梯度交换。技术如全规约(all-reduce)被用于在数据并行训练的反向传播结束时跨所有设备同步梯度。目标是在如广播、规约、全规约和全集合等集体操作期间尽量减少通信数据的体积。简而言之,训练和调优LLM是一个复杂的挑战,需要全面的方法。考虑所有这些效率方面的综合策略对于有效和可扩展的LLM训练和调优至关重要。后续部分将提供这些方面的详细探讨。 推断效率

大型语言模型(LLM)中庞大的参数数量为在云服务和资源有限的设备上部署带来了重大挑战,导致推理支持的维护成本很高。因此,加速推理已成为工业界和学术界共同关注的迫切问题。一种常见的方法是构建紧凑的模型,使整个模型达到具有竞争力的性能,这些方法大致可以分为四类:剪枝、知识蒸馏、量化和低秩分解。剪枝技术专注于识别和消除深度神经网络(DNN)操作符中的冗余,从而创建更精简的版本。知识蒸馏涉及将见解从更大、更复杂的"教师"模型转移到更小、更有效的"学生"模型,帮助在简化模型中保持高性能。量化通过使用更少的比特在llm中表示浮点数来减少计算负荷和存储需求。低秩分解通过低秩矩阵逼近LLMs中的权重矩阵,进一步节约计算资源。值得注意的是,其中一些方法需要专门的计算库和硬件来实现实际的资源节省和加速。 结论

总而言之,大型语言模型(LLM)的发展标志着人工通用智能领域的一个重要里程碑,在各个领域带来了变革性的变化。然而,这些模型的快速扩展在计算需求和内存需求方面带来了重大挑战,为学术研究和实际部署创造了障碍。本综述对旨在提高llm效率的算法创新进行了全面的概述,捕捉了主要截至2023年9月的研究进展。现有的综述往往侧重于孤立的方面,如训练或模型压缩,本文超越了这些调查的范围,深入研究了效率的多个维度,这些对LLM的整体算法开发至关重要。它已经跨越了一系列与效率相关的主题,包括缩放规律、数据利用、架构设计,以及训练、调优和推理策略。这里提出的见解和分析旨在为该领域的研究人员和从业人员提供有价值的总结。通过奠定现有知识和方法的坚实基础,为LLM效率这一关键研究领域未来的突破和持续创新奠定了基础。

成为VIP会员查看完整内容
45

相关内容

《多模态3D场景理解》最新综述
专知会员服务
184+阅读 · 2023年10月28日
基于模型的强化学习综述
专知
27+阅读 · 2022年7月13日
深度学习模型可解释性的研究进展
专知
25+阅读 · 2020年8月1日
清华大学《高级机器学习》课程
专知
38+阅读 · 2020年7月21日
深度学习超参数搜索实用指南
云栖社区
28+阅读 · 2018年10月14日
机器学习必备手册
机器学习研究会
18+阅读 · 2017年10月24日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
24+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
Arxiv
155+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
395+阅读 · 2023年3月31日
Arxiv
66+阅读 · 2023年3月26日
Arxiv
137+阅读 · 2023年3月24日
Arxiv
19+阅读 · 2023年3月17日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
24+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员