摘要——基础模型的快速发展——在多样化、广泛的数据集上训练的大规模神经网络——已经彻底改变了人工智能,推动了自然语言处理、计算机视觉和科学发现等领域的前所未有的进展。然而,这些模型庞大的参数量,往往达到数十亿甚至数万亿,给将其适应于特定下游任务带来了显著挑战。低秩适应(LoRA)作为一种非常有前景的方法,已成为缓解这些挑战的有效手段,提供了一种参数高效的机制,能够以最小的计算开销微调基础模型。本综述首次全面回顾了低秩适应技术,除了对大规模语言模型的研究,还包括了其在基础模型中的应用,涵盖了低秩适应在多个领域的技术基础、前沿进展及应用。最后,本文讨论了理论理解、可扩展性和鲁棒性等方面的关键挑战及未来研究方向。本综述为从事高效基础模型适应研究和实践的学者与从业者提供了宝贵的资源。
关键词——基础模型、大规模语言模型、低秩适应、参数高效微调、多任务学习
1 引言基础模型代表了人工智能中的一种范式转变,其中在广泛和多样化的数据集上预训练的大规模神经网络架构,建立了可泛化的表示框架,可以适应广泛的下游应用[1],[2]。这些模型跨越多个领域,包括自然语言处理(如 GPT-3.5 [3]、LLaMA [4])、计算机视觉(如 Swin Transformer [5]、MAE [6]、SAM [7])、语音处理(如 Wav2vec2 [8]、Whisper [9])、多模态学习(如 Stable Diffusion [10]、DALL·E 2 [11])和科学应用(如 AlphaFold [12]、ChemBERTa [13]、ESM-2 [14])。基础模型的特点是其前所未有的规模,参数数量达到数十亿甚至数万亿,并且表现出涌现性质——即在没有明确训练的情况下自发产生的能力[1]。这些架构已成为现代人工智能系统的基础构件,推动了多个领域的突破性进展[1],[2]。尽管这些模型展现了广泛的能力,但通过微调进行任务特定优化仍然是提升模型泛化能力[15]、促进算法公平性[16]、实现定制化[17]以及符合伦理和社会标准[18],[19]的必要手段。然而,它们的规模带来了显著的计算挑战,特别是在训练和微调所需的计算资源方面[20]。尽管传统的微调方法(涉及对全部参数进行更新)在各种任务中已证明有效[21],[22],但其计算需求通常使得在基础模型中应用变得不切实际[23],[24]。因此,参数高效微调(PEFT)方法应运而生,作为应对这些计算挑战的解决方案[17],[24],[25],[26],[27],[28]。这些方法通过最小化可训练参数的数量,使得模型适应能够显著降低计算需求,而不会影响任务性能。在这些方法中,低秩适应(LoRA)[17]及其变种因其简便性、实证效果以及在各种模型架构和领域中的广泛适用性而受到广泛关注,如图1所示。LoRA基于两个关键见解:在微调过程中,权重更新通常位于低维子空间中[29],[30],并且任务特定的适应可以通过低秩矩阵有效捕捉[17]。通过在冻结原始模型参数的同时优化这些低秩矩阵,LoRA实现了高效的适应,并能够在不增加推理延迟的情况下组合多个任务特定的适应[17],[31]。贡献。本综述提供了迄今为止,超越大规模语言模型(LLMs)领域[32],针对LoRA技术的首个全面回顾,扩展分析至基础模型的更广泛领域。我们的主要贡献包括: 1. 技术基础的系统分析:我们提供了对LoRA近期技术进展的结构化分析,包括参数高效策略、秩适应机制、训练过程改进以及新兴的理论视角。 1. 新兴前沿的广泛调查:我们探讨了新兴的研究前沿,包括融合多个LoRA组成部分和专家混合方法的先进架构,以及持续学习、遗忘、联邦学习、长序列建模和高效服务基础设施的方法。 1. 应用的综合回顾:我们呈现了在多个领域的实际应用综述,包括自然语言处理、计算机视觉、语音识别、科学发现,以及在代码工程、推荐系统、图学习和时空预测等专门应用中的使用。 本综述通过图3组织了现有的LoRA研究,识别了第六节中的关键挑战和未来研究方向,为该领域的研究人员和从业者提供了宝贵的资源。
2 基础知识LoRA [17] 是参数高效微调(PEFT)领域的重要进展。尽管最初是为大规模语言模型(LLMs)开发的,但后续研究已证明它在各种基础模型中都表现出色。LoRA的数学公式核心思想是在微调过程中将更新矩阵 ∆W 限制为低秩,如图2所示,这一过程通过矩阵分解实现:
参数初始化策略
LoRA采用特定的初始化策略以确保训练的稳定性和高效性。矩阵A通常使用从随机高斯分布中抽取的值进行初始化,而矩阵B则初始化为零,这确保在训练开始时,∆W = BA 实际上是一个零矩阵。微调过程
在LoRA中,微调过程遵循以下关键原则: * 原始预训练权重 W₀ 被保持冻结,在训练过程中不接受梯度更新。 * 低秩矩阵 A 和 B 是唯一可训练的参数,用于捕捉任务特定的调整。 * W₀ 和 ∆W 分别作用于输入向量 x,并将它们的输出结合起来。 * 输出 ∆W x 被 α/r 缩放。 * 最终输出向量逐元素相加:
其中 α/r 是一个缩放因子,用于控制低秩更新的幅度。在使用 Adam [33] 优化时,调节缩放因子 α 大致相当于调整学习率 [17],前提是初始化时进行适当的缩放。在实际操作中,α 的值可以根据秩 r 设置,从而消除广泛的超参数调优需求。LoRA 相比全量微调的优势
LoRA 在应用于大规模基础模型时,相比全量微调提供了几个关键优势: 1. 参数效率:LoRA 通过低秩分解引入了最小的一组可训练参数,通常将任务特定的参数数量降低几个数量级。这种方法在资源受限的环境和多任务场景中尤为有利,其中需要对基础模型进行多次适配。 1. 增强的训练效率:与更新所有模型参数的传统全量微调不同,LoRA 仅优化低秩适应矩阵。这大大减少了计算成本和内存需求,尤其是在具有数十亿参数的模型中。减少的参数空间通常会导致训练过程中的更快收敛。 1. 无延迟推理:LoRA 不会引入额外的推理延迟,因为更新矩阵 ∆W 可以显式地与原始冻结权重 W 结合使用。这种集成确保了适应后的模型在部署和推理时保持高效。 1. 灵活的模块化适应:LoRA 使得创建轻量级的、任务特定的适配器成为可能,这些适配器可以在不修改基础模型架构的情况下进行互换。这种模块化有助于高效的多任务学习和任务切换,同时相比为每个任务维护独立的模型实例,显著减少了存储需求。 1. 强大的知识保留能力:通过保留预训练权重,LoRA 有效地缓解了灾难性遗忘问题,这是传统微调中常见的挑战。这种方法在获取任务特定能力的同时,保持了模型的基础知识。 1. 多样的部署方式:LoRA 适应的紧凑性有助于高效的部署和系统集成。多个适应器可以方便地组合或在不同任务或领域之间切换,与传统微调方法相比,提供了更大的灵活性。
3 基础在本节中,我们将从四个关键维度探讨LoRA的基本技术方面:参数效率提升、秩适应策略、训练过程改进和理论基础。这些组件构成了LoRA有效性的技术基础。3.1 参数效率提升尽管通过LoRA及其投影矩阵 A(project-down)和 B(project-up)实现了参数效率的提升,但该方法仍然需要大量的可训练参数。例如,将LoRA应用于LLaMA-2-70B模型 [4] 时,需要更新超过1600万个参数 [34],这一数字超过了一些BERT架构的总参数数量 [35]。当前的研究通过四种主要方法来应对这一挑战:参数分解、剪枝、冻结与共享以及量化。图4展示了这些技术的示例。
3.2 秩适应秩是LoRA中的一个关键参数,直接影响模型的适应性和可训练参数的数量。原始的LoRA方法在所有层中使用固定的低秩,这对于不同的下游任务和模型架构可能并非最优。为了解决这些局限性,近期的研究提出了多种优化LoRA中秩分配的方法,这些方法可以大致分为两个主要方面:秩细化和秩增强。图5展示了这两种方法的示意图。
3.3 训练过程改进尽管LoRA在参数高效微调方面已经取得了显著成功,但优化其训练动态仍然是最大化适应性能的关键。在本节中,我们将讨论旨在改进训练过程的最新进展,特别是学习率、丢弃策略和缩放因子。 4 前沿发展在上述技术基础的基础上,本节探讨了扩展LoRA能力的新方向的前沿发展。这些前沿发展利用并结合LoRA的基本原理,以实现新的功能、处理更复杂的任务,并解决模型适应中的挑战。4.1 高级架构尽管原始的LoRA方法显著提高了微调的效率,并且展示了与全量微调相当的性能,但在灵活性、泛化能力和同时处理多个多样化任务方面存在局限性。为了解决这些局限性,研究人员开发了先进的LoRA架构,以进一步提高性能、参数效率和泛化能力。4.2 LoRA 在持续学习中的应用LoRA 的参数高效特性使得在新任务上逐步更新模型成为可能,同时可以有效缓解灾难性遗忘问题 [98],[99]。使用 LoRA 进行持续学习(CL)有几个关键优势:(1)与全量微调相比,计算成本降低;(2)自然地将任务特定知识隔离;(3)灵活地组合任务特定的适应。基于 LoRA 的现有持续学习方法大致可以分为三种方法:正则化方法、任务算术方法和集成方法。
LoRA 使得从基础模型中有针对性地移除特定知识成为可能,而无需进行大规模的重新训练。以下是利用 LoRA 实现遗忘的三种主要方法分类:
4.4 LoRA 在联邦学习中的应用在数据隐私问题日益严重的时代,联邦学习(Federated Learning, FL)提供了一种有前景的方式,可以在保护个人数据隐私的同时,利用集体知识。LoRA 与联邦基础模型(Federated Foundation Models, FFM)的结合,使得基础模型在资源受限的设备上变得更加可访问,尤其是在边缘计算场景下,有望彻底改变物联网(IoT)和移动应用领域。
处理长序列的能力对于许多由基础模型处理的任务至关重要【125】【126】【127】。然而,标准的基础模型通常受到最大上下文长度的限制,这是由于自注意力机制相对于序列长度的二次计算复杂度。为了应对这一局限性,已经提出了几种基于 LoRA 的方法,用于扩展基础模型的上下文窗口。
4.6 LoRA服务系统
高效地提供多个LoRA模型的服务同样至关重要。近期的进展包括改进的GPU内存管理 [129],高效的批处理技术 [130],用于缓解冷启动延迟的CPU辅助策略 [131],以及针对资源受限的个人设备的适应性方法 [132]。
5 应用
LoRA在微调基础模型方面的有效性和高效性,促使其在多个领域得到广泛应用,包括语言处理、计算机视觉、语音识别、多模态、代码工程、科学发现、推荐系统、图学习、时空预测等。
6 结论 在本次综述中,我们对LoRA进行了系统分析,探讨了其理论基础、技术进展以及在适应基础模型方面的多种应用。LoRA在多个领域的广泛应用——从自然语言处理和计算机视觉到语音识别和科学计算——突显了其多功能性和有效性。LoRA能够在显著减少计算和存储需求的同时保持模型性能,这使得它在资源受限的环境和特定领域的适配中尤为宝贵。尽管取得了这些成就,但仍然存在若干关键挑战。LoRA有效性的理论框架需要进一步发展,特别是在理解低秩适配与模型能力之间的相互作用方面。此外,关于可扩展性、鲁棒性和在生产环境中安全部署的问题,仍然是当前研究的重要方向。