摘要——本综述深入探讨了在基础模型(Foundation Models, FMs)背景下的高效参数微调(Parameter-Efficient Fine-Tuning, PEFT)。PEFT是一种具有成本效益的微调技术,旨在通过最小化参数和计算复杂度,同时追求下游任务的最佳性能。基础模型,如ChatGPT、DALL-E和LLaVA,专注于语言理解、生成任务和多模态任务,训练数据集涵盖文本、图像和视频等多种形式。基础模型的多样性引导了多种PEFT适配策略。因此,本综述旨在提供一个全面的PEFT技术概述,应用于不同的基础模型,并解决在理解这些技术、趋势和应用方面的关键空白。我们首先详细介绍基础模型和PEFT的发展,随后系统地回顾了在不同基础模型中PEFT的主要类别和核心机制,以提供对趋势的全面理解。我们还探讨了PEFT在各种基础模型中的最新应用,展示了其多样性,揭示了系统化PEFT方法与多种基础模型集成的可能性。此外,我们还指出了未来改进PEFT的潜在研究与发展方向。本综述为初学者和专家提供了一个宝贵的资源,帮助他们理解和使用PEFT在不同基础模型中的强大能力。所有综述中的论文可在https://github.com/THUDM/Awesome-Parameter-Efficient-Fine-Tuning-for-Foundation-Models找到。 关键词——高效参数微调,基础模型,大型语言模型,视觉基础模型,多模态基础模型
I. 引言
基础模型(Foundation Models, FMs)通过在大规模数据集上进行预训练[1, 2, 3, 4, 5, 6](通常涵盖文本、图像、视频等多种类型),以应对多种任务,如语言理解[7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17]、代码生成[18, 19]、图像或视频理解[20]、视觉内容生成[21, 22, 23],如图2(左)所示。目前,各种基础模型在不同领域占据主导地位,例如,语言相关任务由ChatGPT [4]、ChatGLM [24, 25]和Qwen [26]支持,而视觉语言任务则由ChatGPT-4V [27]应对。DALL-E [28]、Sora [29]和Veo21专注于生成任务,LLaVA [30]和NExT-GPT [31]则擅长多模态任务,如图2(中)所示。在实际应用中,通常需要在未见过的下游数据集上微调这些基础模型,以达到特定任务的最佳性能。 高效参数微调(Parameter-Efficient Fine-Tuning, PEFT)技术[32, 33, 34, 35],作为一个高度活跃的研究主题,在微调过程中展示了显著的成本效益,如图1和图2(右)所示。这项技术通过最小化可训练参数和计算开销,同时力求在下游任务中达到接近完全微调的性能。以GPT-3 [3]为例,完全微调需要训练所有的1750亿个参数,而LoRA [36]只需训练470万或3770万个参数,节省了超过99.97%的参数,且结果在性能上比完全微调提高了0.1%到0.5%。这种特性为社区和实际应用带来了显著的实践价值。然而,基础模型的多样性推动了不同PEFT适配策略的发展。例如,在提示微调方法中,可训练提示模块的设计通常根据基础模型的类型(例如,大型语言模型(LLMs)的文本提示[37],和视觉语言模型(VLMs)的视觉提示[38])有所不同。类似地,LoRA [36]根据基础模型的架构(例如,大型语言模型的变换器块[39]或视觉内容生成模型的去噪U-Net[40])集成到不同的组件中。因此,全面综述PEFT技术如何在不同基础模型中进行适配,对于推动该领域的发展至关重要。这一理解将为PEFT在多种任务和领域中的更系统和有效应用铺平道路。 正如上文所强调,基础模型在结构、方法和应用方面正以前所未有的速度迭代。这种快速演化促使PEFT领域同样变得动态活跃。因此,跟踪PEFT在基础模型中的技术趋势势在必行。如图1所示,我们统计了过去五年中PEFT方法在不同基础模型中的引用总数,并根据这一趋势指标得出以下三大趋势:
趋势一:PEFT领域正在经历显著增长,涵盖了包括语言、视觉和多模态领域在内的多种任务和基础模型。 趋势二:大型语言模型(LLMs)和视觉基础模型(VFMs)主导了当前的研究格局,研究活动呈现快速且显著的增长,而视觉语言模型(VLMs)和视觉内容生成模型(VGMs)作为次要研究方向也在逐渐获得关注。 趋势三:相比之下,多模态基础模型(MFMs)仍然相对较少被研究,表明这一领域在未来具有显著的研究和创新潜力。 在本综述中,我们旨在探索将PEFT与不同基础模型集成以提升可扩展性的潜力。此外,鉴于这两个领域的相互动态发展,近年来出现了几篇概述综述文章,如表I所示。例如,Xin等人[32]系统性地回顾了视觉PEFT(涵盖常见数据集和应用),并识别了未来的研究方向。Zhou等人[34]将范围扩展到多模态大型语言模型,并呈现了几种主流PEFT方法的实证研究。他们的研究结果强调了适配器微调的优越性,以及连接层在微调多模态基础模型中的积极作用。Wang等人[35]则专注于各种PEFT算法的核心思想和原则,为快速理解提供了理论指导。值得注意的是,Han等人[33]从算法角度深入分析了大型语言模型的PEFT,提出了在实际场景中系统设计的建议。这些有价值的综述为PEFT的某些方面提供了深入的见解。然而,这些见解分散在不同的研究中,且侧重于一般化的基础模型。其次,当前缺乏对PEFT在不同基础模型中的发展脉络以及更直观、统一的示意图的关注。因此,结构化且全面的综述变得愈加必要。 因此,我们首先回顾了基础模型的发展趋势和PEFT的分类(第二部分)。随后,我们深入探讨了五种模型结构下的PEFT设计(第三部分),包括选择性PEFT、加法性PEFT、提示PEFT、重参数化PEFT和混合PEFT,并在表II中提供了相应的特征总结。我们还探索了PEFT在不同下游任务中的应用及其相应的场景(LLMs的第四部分,VFMs的第五部分,MFMs的第六部分)。最后,我们在第七部分提供了关于当前研究趋势和未来研究方向的观察,以促进PEFT在各个领域的发展。 通过本综述,我们为广泛的基础模型与系统化PEFT方法的整合提供了更深入的理解。
****二、背景
基础模型概述 基础模型主要在大规模数据集上进行预训练,并可以通过微调适应各种下游任务。根据输入模态和功能的不同,我们将其大致分为五类: 大型语言模型(LLM):设计用于理解、生成和操作文本。这些模型在大量文本语料库上进行训练,能够执行广泛的语言相关任务,如翻译、摘要、文本生成和问答。例如BERT、LLaMA、GPT-4和ChatGPT。 视觉基础模型(VFM):专注于从视觉数据(如图像)中理解和生成洞察。它们可以处理图像分类、目标检测、分割等任务。这些模型在大规模图像数据集上进行预训练,使其能够很好地泛化到各种视觉相关任务。例如Grounding DINO和SAM。 视觉语言模型(VLM):整合了视觉和文本模态,能够处理需要理解图像和语言之间关系的任务。它们用于应用如接地、图像字幕和视觉问答。例如CLIP、BLIP、GPT-4V和GLM-4V。 视觉内容生成模型(VGM):专注于从各种输入(文本、草图或其他视觉提示)生成高质量的视觉内容,如图像、视频或3D模型。它们用于艺术生成、视频合成,甚至为其他AI模型创建合成训练数据。例如Stable Diffusion、DALL-E、Zero-1-to-3和CogVideo-X。 多模态基础模型(MFM):扩展了LLM的能力,能够处理多种模态,如文本、图像和音频。这些模型可以同时处理和生成文本、图像和音频等,从而实现多模态任务中更丰富的交互。例如LLaVA-1.5、Gemini 1.5 Pro、CoDi、SEED-X和NEXT-GPT。
参数高效微调的发展 PEFT已成为微调基础模型(如BERT和GPT-3)的重要方法,旨在减少微调过程中需要更新的参数数量,从而降低计算和存储成本。以下是PEFT关键发展和相关方法的总结: 选择性PEFT:这类方法专注于仅微调模型参数的一个子集,而不是所有参数。其基本假设是,在大型预训练模型中,某些参数对特定任务尤为重要,调整这些关键参数可以获得满意的结果。早期方法如逐层冻结在微调过程中逐渐解冻模型的层。更多部分策略也出现了,通过经验方法或学习过程识别哪些层应该解冻和调整。 加法PEFT:加法方法涉及在基础模型的层之间插入小型适配器网络(也称为瓶颈适配器),以实现微调。最早的适配器方法在模型层之间插入瓶颈层,更新这些瓶颈参数,同时保持原始模型基本不变。适配器显著减少了需要更新的参数数量。 提示PEFT:这类方法涉及学习软命令(即嵌入向量的序列),以指导模型有效执行任务。 重参数化PEFT:这些方法提出重新表示或分解现有模型参数,以便在微调过程中仅调整部分参数,从而保留大部分未更改的参数。 混合PEFT:这些方法结合了多种PEFT策略,以实现最佳结果,结合了适配器、提示和参数化等技术。最近的方法专注于为不同任务和场景找到这些策略的最佳配置。 三、方法论
本节将描述PEFT方法的几个重要类别,涵盖LLM、VFM、VLM、MFM和VGM中的PEFT分类。我们还将分析每个类别的优缺点,以便更深入地理解。 1. 选择性PEFT
这类方法指的是选择性地微调原始模型参数的一个子集,同时保持其余参数冻结,或者引入最少数量的额外参数进行训练,而不改变原始参数。 1.1 选择性PEFT的基础 在这组中,包括两种核心类型:特定选择和自动选择。特定选择是指预先确定要选择的参数,而自动选择是指模型自动决定要调整的参数。 特定选择:这类方法旨在选择特定的层或神经元进行微调。常用的方法包括冻结层、BitFit和PASTA。 自动选择:这类方法旨在利用各种算法自动确定要训练的参数,如Masking、Diff-Pruning、FISH、AutoFreeze Layers和CHILD-TUNING。 1.2 选择性PEFT在更多基础模型中的应用 线性探针(Linear Probe)展示了CLIP模型,该模型联合训练文本编码器和图像编码器,以在测试时进行零样本预测。FC-CLIP使用共享的冻结卷积CLIP骨干构建了一个单阶段系统,用于开放词汇分割。Tune-A-Video提出了一种文本-视频对微调方法,并提出了针对文本到视频生成的定制时空注意力机制。LayerNorm Tuning仅调整注意力块中的归一化层权重,展示了在GPU内存使用和可训练参数方面的显著减少。 2. 加法PEFT 如图3所示,适配器的核心思想是学习一组参数,可以将一层的输出转换为下一层的输入,以适应特定任务。适配器是小型参数集,可以插入基础模型的层之间。它们允许网络在不修改其原始参数的情况下对新任务进行微调。 2.1 加法PEFT的基础 对于这组,包括三种关键类型:瓶颈适配器、多适配器和适配器稀疏性。 瓶颈适配器:这类方法在NLP领域提出,灵感来自跨域图像分类任务中的残差适配器和ResNet。适配器层具有简单的结构:它被下投影到较小的维度,通过非线性激活函数,然后上投影回原始维度,类似于瓶颈。此外,整个适配器层的输入和输出之间存在残差连接。 多适配器:这类方法指的是向模型添加更多适配器模块,以增强其可转移性。这些方法作为专门的知识插件提出,以整合各种任务的知识,而不会忘记先前任务的知识,并提高瓶颈适配器的性能。 适配器稀疏性:这类方法旨在根据适配器的内部结构充分利用参数效率。如AdapterDrop、LST和Convpass。
2.2 加法PEFT在更多基础模型中的应用 LST在T5和CLIP-T5模型上进行了评估,揭示了当微调整个网络时,LST减少了69%的内存成本,而其他方法在类似参数使用情况下仅实现了26%的减少。Convpass通过在ViT中引入卷积旁路作为视觉Transformer适配器,引入了不到0.5%的可训练参数来适应视觉模型。AdaptFormer引入了一个轻量级模块,参数少于ViT的2%,以提高识别性能。ViT-Adapter通过集成图像特定的归纳偏差增强了标准ViT骨干的内在表示能力。SAN将掩码提议生成和类别识别任务分离,以实现开放词汇语义分割。通过将轻量级侧网络附加到固定的CLIP模型,预测掩码提议和注意力偏差,以指导CLIP识别掩码的类别。CSN(DTL)通过紧凑的侧网络从骨干中解耦权重更新以识别对象。T2I-Adapter学习轻量级适配器模式以在不更新文本到图像模型固有框架的情况下提高文本到图像模型的性能。IP-Adapter使用图像提示并引入交叉注意力机制以有效学习图像嵌入。I2V-adapter仅需微调基础扩散模型的1%参数。ControlNet添加了空间局部化条件。随后,ControlNeXt引入了一个轻量级条件控制模块,进一步将可学习参数减少到ControlNet的不到10%,扩展到视频生成和超分辨率。LLaMA Adapter V2通过解锁更多可学习参数有效增强了LLaMA-Adapter。CLIP-Adapter和Tip-Adapter等建议插入可训练适配器以将VLM微调执行到固定的CLIP模型中。 3. 提示PEFT
提示微调几乎是基础模型中最常见的PEFT方法,如图4所示。这类方法涉及将精心设计的提示纳入输入或Transformer的层中,旨在将输入分布与原始训练数据对齐,并引导模型生成所需的输出。 3.1 提示PEFT的基础 这里讨论三种类型:硬提示、自动提示和软提示。 硬提示:这类方法意味着提示的初始形式涉及手动指定模板并将其与输入连接以生成所需输出,而不修改原始模型参数。 自动提示:这类方法提出了一种自动提示搜索方法,使用探索性搜索自动生成提示,以解决硬提示手动设计的挑战。 软提示:这类方法进一步扩展了范围,超越了词汇表中人类可理解的单词。这些提示称为连续或软提示。在这个高级进展中,生成过程从离散的、人类驱动的转变为连续的、机器驱动的。代表方法包括Prefix Tuning、Prompt Tuning、P-Tuning、PPT等。 3.2 提示PEFT在更多基础模型中的应用 VP通过向图像的像素空间添加提示(如沿图像边缘填充像素)来适应基础模型到新任务,而不改变模型的参数。VPT在输入空间中引入了一些可学习参数,这些参数少于原始模型参数的1%。DAM-VP通过自适应选择和优化不同图像子集的视觉提示,提高了预训练模型在具有高多样性和大数据集的下游任务上的性能。ILM-VP通过引入基于迭代标签映射的框架,显著提高了目标任务的精度,并优于现有方法。EVP通过将提示视为可学习实体并应用输入多样性和梯度归一化,显著提高了各种数据集的分类准确率。LION是一种轻量级且有效的视觉提示微调方法,利用隐式平衡层以最小的计算成本将预训练模型适应下游任务。Textual Inversion找到了一种在CLIP的文本编码器中描述新概念的方法,以微调扩散模型(使用少于20k参数)生成特定风格的内容。CoOp使用可学习向量对提示的上下文词进行建模,以实现PEFT以识别或检测对象。OVSeg结合了掩码和彩色提示,显著提高了VFM的微调性能。Q-Former使用轻量级投影桥接模态差距,大大减少了可训练参数。 4. 重参数化PEFT 虽然加法PEFT通过采用下投影和上投影技术减少了可调参数的数量,但其合成结构可能会对模型的推理速度产生负面影响。同样,训练提示在提示微调中可能不稳定,因为它依赖于人类输入,这通常是主观的。此外,在输入序列中包含提示标记可能会减少有效序列长度,可能导致次优性能。为了解决这些限制,我们引入了另一种PEFT技术,即重参数化,如图5和表VI所示。该技术对初始模型参数的低维表示进行重参数化以进行训练,同时在推理时将权重转换回来。 4.1 重参数化PEFT的基础 重参数化主要包括两组:LoRA及其变体和MPO。 LoRA及其变体:LoRA利用了许多机器学习问题中固有的低秩结构作为基本重参数化技术。Aghajanyan等人深入研究了内在维度,并证明自然语言任务可以用非常少的参数解决,有时只有几百个。这一发现意味着基础模型的预训练可以被视为一种知识压缩形式,其中每个任务对应于模型子空间中的唯一内在维度。实证研究表明,较大的模型往往比其基线对应物具有更低的内在维度。 MPO:矩阵乘积算子是张量网络的表示,其特征是随着输入维度的增加,参数和计算复杂度增长缓慢,使其适合压缩基础模型。MPO分解参数矩阵并定义中心张量和辅助张量。鉴于MPO分解的性质,中心张量包含的参数明显多于辅助张量,表明它封装了基础模型的基本语言信息。对于下游任务适应,仅需要训练低参数的辅助张量。 4.2 重参数化PEFT在更多基础模型中的应用 LoRand利用低秩分解创建紧凑的适配器进行微调,仅使用原始模型参数的1-3%即可实现竞争性能,显著减少了计算开销。LyCORIS提供了一套先进的工具,用于微调Stable Diffusion模型,增强了其文本到图像生成的能力,具有改进的控制和质量。DiffuseKronA采用Kronecker积分解来最小化扩散模型注意力层中的参数,在不影响图像生成质量的情况下实现了显著的效率提升。Mix-of-Show提出了嵌入分解的LoRA(ED-LoRA)来训练单个概念,梯度融合用于中心节点概念融合,以及区域可控采样用于扩散模型。LoRA-Sparse开发了低秩线性投影层用于稀疏注意力,以增强LLaVA-1.5的性能。 5. 混合PEFT PEFT领域中一个独特且有前途的方法围绕多种方法的集成。这种战略组合将几种独特的PEFT技术(如LoRA、BitFit、P-Tuning等)结合到一个单一的战略框架中。这种集成方法允许模型借鉴每种方法的优势和见解,从而建立一个全面而强大的框架。通过这种融合,模型能够更有效地优化参数,减少计算负担,并可能提高性能,为PEFT提供了一个有趣且有前途的途径,如表VII所示。 5.1 混合PEFT的基础 主要的混合技术包括UniPELT、COMPACTER、S4、NOAH和DiffFit。 UniPELT:这是一个统一的框架,集成了适配器、前缀微调和LoRA的核心方面,并采用门控机制来调节这些模块。线性层门控机制本质上决定了每个模块的贡献和操作。实验结果表明,与集成的独立PELT方法相比,UniPELT始终显示出1%到4%的性能提升。总的来说,UniPELT支持了集成方法在进一步提高基础模型适应特定任务的效率和有效性方面的承诺。 COMPACTER:通过创新放置和训练方法扩展了基本适配器的概念,引入了一种基于低秩矩阵Kronecker积的新型轻量级适配器结构。这一进步仅需添加原始模型参数的0.05%到0.2%,但在GLUE和SuperGLUE等基准测试中表现出色。 MAM适配器:进行了深入研究,重点关注适配器的排列和软提示的使用,以呈现参数高效迁移学习的统一视角。他们得出了几个启示和关键结论,包括:1)缩放并行适配器在修改FFN方面脱颖而出。2)并行放置的适配器明显优于顺序放置的适配器。此外,直接比较多头注意力和FFN并行放置显示出优越的结果。3)在受限参数预算的情况下,对注意力头的修改导致最佳结果。相反,当允许更大的容量设置时,FFN受益最多。4)实施软提示(如前缀微调)通过调整极小比例的参数(0.1%)带来了显著的性能提升。基于这些见解,MAM适配器引入了多头注意力适配器,该模型代表了FFN层的并行适配器和软提示的集成。该模型结合了在注意力子层中实现的前缀修改(较小的瓶颈维度为l=30)和用于修改FFN表示的缩放并行适配器(瓶颈维度为r=512)。尽管仅使用了6.7%的参数数量,MAM适配器展示了独特的效率和性能组合。此外,与BitFit和提示微调等方法相比,它显著领先,始终超越LoRA、适配器和前缀微调等核心方法。 S4:探索了各种以较少参数微调模型的方法。它研究了将层分为四组、调整可训练参数、选择要微调的组以及应用特定技术。它引入了一种名为S4的创新方法,将层分为G1、G2、G3和G4,类似于纺锤形状。中间组有更多层,而顶部和底部有较少层。所有组保持可训练,参数均匀分布在层中,并应用不同的PEFT技术。G1使用适配器,G2受益于适配器和前缀微调,G3使用适配器、前缀微调和BitFit进行微调,G4则进行前缀微调、BitFit和LoRA。实验表明,仅使用0.5%参数的S4方法在不同模型、大小和任务中始终优于单个技术。 5.2 混合PEFT在更多基础模型中的应用 NOAH(神经提示搜索)实现了神经架构搜索以设计提示模块,并将适配器、LoRA和VPT集成到每个Transformer块中。DiffFit仅微调偏置项并引入缩放因子以实现训练效率和存储减少。V-PEFT通过研究微调位置,提出了基于视频任务的PEFT方法的统一分析。DreamBooth利用少量个体图像并引入了一种新的自生类特定先验保留损失,以将独特标识符与主题关联,同时保持类变化。 四、大型语言模型的PEFT
因果语言模型的PEFT 因果LLM在LLM社区中非常流行,作为一种基础语言模型,也称为自回归LLM,例如GPT-3、BLOOM、Falcon和LLaMA系列。这里我们简要回顾了因果LLM中PEFT的进展。例如,LLaMA-adapter在冻结的LLaMA-7B的Transformer层之后注入了一组可学习的适应提示,仅需1.2M可训练参数即可扩展语言指令。类似地,串行适配器微调和并行适配器微调有效地微调了GPT-J-6B和BLOOM-7.1B,并在数学推理上优于GPT-3.5。此外,LoRA系列经常用于这组LLM,例如QLoRA引入了一系列内存节省技术来微调LLaMA,而不会牺牲性能。LoRA-Sparse基于LLaMA减少了超过一半的自注意力计算,同时增强了NLP任务性能。MoSLoRA融合了MoE和LoRA来微调LLaMA,提高了常识推理。此外,Prefix tuning、P-Tuning和Prompt tuning也支持各种因果LLM,请参阅开源库以获取详细信息。
前缀语言模型的PEFT 前缀LLM,也称为非因果LLM,是LLM社区中的另一个主流,主要由ChatGPT系列代表。回顾一下,P-tuning系列利用提示标记仅使用0.1-0.3%的可训练参数微调ChatGPT,作为跨各种模型规模和语言理解任务的通用解决方案。OrehMoE利用多适配器模块化技能架构微调ChatGPT,从而推进了PEFT中的前向转移。同时,FATE-LLM利用LoRA和P-Tuning v2调整ChatGPT-6B,以评估联邦场景中的语言能力,分别仅需0.06%和0.048%的可训练参数。类似的工作包括DP-LoRA,而CPMI-ChatGLM应用P-Tuning v2和LoRA微调ChatGPT-6B,以更好地理解现实场景。MoELoRA通过使用任务驱动的门函数控制每个LoRA的贡献,有效地微调了ChatGPT-6B。 总的来说,我们回顾了PEFT方法在两种代表性基础语言模型中的进展:因果LLM和前缀LLM。在实践中,编码器-解码器LLM如T5也是流行的之一,上述大多数PEFT方法同样适用于它们。例如,LLaMAFactory灵活定制了各种PEFT方案以增强语言建模,如LoRA、DoRA、rsLoRA、PiSSA等。该存储库还涵盖了多种类型的LLM,包括但不限于我们讨论的两种类型。 五、视觉基础模型的PEFT
基础视觉模型的PEFT ViT是VFM的主流和基础骨干。因此,本小节关注ViT中PEFT的最新进展。广义上讲,该类别的VFM仅考虑图像作为输入。具体来说,一系列PEFT方法已被考虑用于VFM,如适配器微调(AdaptFormer、Conypass、AIM、ST-Adapter、Rob-Adapter、LoRand、SCT、Polyhistor、VMT-Adapter)、提示微调(VPT、CVP、LPT、IDPT、Pro-tuning、LION、ViPT、VP、EVP、DAM-VP、EVP-L、ProSFDA、P2P、ILM-VP)、前缀微调(Prefix-tuning、PATT、eTT、LAM、VQT)、侧微调(Side-Tuning、SAN、ViT-Adapter、LST、SAM-LST、E3VA、CSN (DTL))、规格微调(Linear Probe、BitFit、DP-BiTFiT、DiffFit、LN-TUNE)和重参数微调(LoRA、KAdaptation、FacT、EFFT、SSF、RepAdapter、ATTNSCALE、PHNNs、DnA)等。 如上所述,各种PEFT方法广泛出现在VFM的下游任务中。例如,i)图像识别是PEFT的主要场景,如AdaptFormer、VPT、CSN (DTL)。Rob-Adapter提出了无损适应,以实现操作任务中的最佳性能。此外,相当多的工作也在图像相关场景中取得了成功,如LPT、FacT、LoRA、NOAH、MONA等。ii)PEFT在视频理解中也具有影响力。其中,AdaptFormer、VPT和LoRA在视频相关任务中非常受欢迎。ST-adapter仅需少量(~8%)的每任务参数成本即可理解视频。AIM提出了空间、时间和联合适应,具有显著较少的可调参数,以实现高效的视频理解。APT涉及注意力提示微调,参数少于1%,以减少视频识别中的延迟和FLOPs。此外,LoSA、RaSTFormer等也在时间动作定位和短视频中做出了努力。
提示视觉语言模型的PEFT 本小节关注提示VLM中PEFT的最新进展。一般来说,该类别的VFM考虑视觉和文本信息作为输入。具体来说,一系列PEFT方法已应用于提示VLM,如视觉接地(CoOp、CoCoOp、ProGrad、MaPLe、TPT、CPT、DiffTPT、CLIP-Adapter、Tip-Adapter、PromptSRC、BadCLIP、MePT、NODE-Adapter、AAPL、CoPL、Any-Shift Prompting、PIN、CLAP、TCP、DePT)、语义分割(SAN、LLM-Former、FC-CLIP、MasQ-Tuning、Test Time Prompt Tuning (TTPT from FreeSeg)、mask prompt tuning、EVP、ETRIS)、视频理解(Vita-CLIP、MA-CLIP、DualPath、Text-Adapter (M2-CLIP)、TDS-CLIP、Omni-CLIP、EVL、Side4Video、EZ-CLIP、ActPrompt、MV-Adapter)、点云分割(PointCLIP v2、P2P、CLIP2Point、EPCL、IDPT、DAPT)等。 根据输入到模型的提示类型,现有工作大致分为文本提示和视觉提示VLM。i)文本提示:一系列工作(如CoOp、KgCoOp)使用提示微调方法对文本输入执行PEFT以进行视觉任务。TCP使用基于文本的类感知提示来解锁文本标记对未见域的有限泛化。请注意,该组中的一些方法最初是为文本提示VLM提出的,尽管它们也常用于更广义的VLM。ii)视觉提示:这类PEFT方法(如OVSeg和CPT)需要图像和视觉或文本提示来执行微调,这些通常包括视觉提示(点、边界框、掩码、颜色)、文本提示、参考提示、组合等。GP-SAM和VRP-SAM等将各种视觉参考和几何提示(点、框、涂鸦、掩码)编码为提示嵌入作为输入以分割任何内容。PIN提出了一种视觉提示方法,即输入不可知的位置插入,以探索视觉接地的定位能力。简而言之,这类PEFT方法遵循定制不同视觉任务和提示的原则。
视觉内容生成模型的PEFT 最近,扩散模型作为视觉内容生成的基础模型趋势。在本小节中,我们回顾了扩散模型中PEFT方法的最新进展,如图6所示。具体来说,一系列PEFT方法在各种扩散模型场景中实施。例如,图像生成(Textual Inversion、T2I-Adapter、DreamBooth、ControlNet、GLIGEN、Uni-ControlNet、ControlNeXt、CCM、IP-Adapter、CTRL-Adapter、X-Adapter、LoRA-Composer、DiffuseKronA、SVDiff、SODA)、视频生成(SimDA、StyleCrafter、I2V-Adapter、Still-Moving、Tune-A-Video、CTRL-Adapter、Customize-A-Video、ControlNeXt)、编辑(Concept Sliders、PTI、CCEdit、SVDiff、DiffMorpher)、超分辨率(ResAdapter、DiffFit、ControlNeXt)、3D生成(IPDreamer)等。在这些方法中,LoRA、ControlNet和Adapter相关方法在各种扩散模型中经常使用。而PEFT在各种场景中的趋势分析,图像生成和视频生成显然更受青睐。 具体来说,ControlNet系列调整可训练副本以学习各种可控条件,例如Openpose、Depth、Canny、Lineart、Animel_lineart、Mlsd、Scribble、Hed、Pidi、Teed、Segment、Norma及其排列。LoRA相关技术在图像或视频生成、编辑等方面得到了应用,如Smooth Diffusion、STAMIlNA、DreamSync、StyleAdapter、Mix-of-Show和DragVideo。广义上讲,LoRA通常配置在注意力模块中,而在稳定视频扩散中,更多努力用于时间跨帧注意力,如Customize-A-Video中的T-LoRA。Adapter相关技术倾向于引入各种单一或组合的轻量级适配器模块,以微调扩散模型以实现各种条件的精确控制。 六、多模态基础模型的PEFT
广义多模态基础模型的PEFT 狭义上讲,前一小节中提到的一些VLM包含了多模态模型的范围,因为它们涉及文本和视觉。然而,上述模型更强调视觉任务的个别技能,例如接地和分割。因此,我们在视觉范围内回顾它们。在这里,我们调查了广义MFM中的PEFT方法,这些模型不仅限于单一语言或视觉技能,而是更广泛的多模态理解。例如,PEFT-MLLMs对LLaVA-1.5、ShareGPT4V、Qwen-VL_Chat执行了适配器、LoRA、前缀微调、IA3的实证探索。LLaMA-Adapter V2通过解锁更多可学习参数有效增强了LLaMA-Adapter,从而通过仅在LLaMA上插入14M参数(0.04%)执行开放式多模态指令。LayerNorm Tuning仅调整每个注意力块中的LayerNorm,足以提高多模态性能。LoRA-Sparse引入了用于稀疏注意力的低秩线性投影层,以提升LLaVA-1.5的多模态性能。此外,LoRA和Q-Former在Monkey、mPLUG-Owl、CogVLM和GLM-4V等中盛行,以增强不同的多模态能力。
下一代多模态基础模型的PEFT 下一代MFM不仅限于少数模态,它们可以感知输入并生成任何组合的文本、图像、视频和音频输出,如CoDi系列、HuggingGPT、Visual-ChatGPT、SEED-X、Gemini 1.5 Pro、Show-o和NExT-GPT。在这里,我们调查了这类模型中PEFT的最新进展。例如,SEED-X首先在Llama2-chat-13B上进行预训练,然后在大量多模态数据上使用LoRA。Anole利用数据高效(约6000个样本)和参数高效(少于40M参数)的微调策略,促进了视觉和多模态生成。NExT-GPT同样使用LoRA调整相当少的参数(1%)以更新特定投影层,从而增强多模态能力。 七、讨论与未来方向
当前趋势的观察 可靠性:PEFT方法对超参数敏感,例如瓶颈维度、秩和层顺序。此外,由于PEFT中使用的结构或网络显著小于基础模型本身,最佳超参数通常与全微调使用的超参数大不相同。例如,PEFT的最佳学习率通常比全微调的学习率高得多。因此,开发简单且高效的低敏感性超参数解决方案至关重要。 可解释性:理解PEFT方法的内部机制仍然是一个挑战。在LLM中,提示可以以相对直观的方式解释。然而,在基础模型中,主要挑战是各种提示作为无序的基于标记的提示学习,难以转化为可理解的格式。此外,不同的PEFT方法面临特定的可解释性挑战。例如,理解适配器中学习到的参数与层之间的关系是一个重要课题。 统一基准:尽管有Hugging Face的PEFT和AdapterHub等库,但PEFT仍然缺乏全面的基准。不同的研究使用不同的评估数据集和任务设置,导致性能评估标准不一致,从而影响用户评估不同PEFT方法的优缺点。为了解决这个问题,当前的趋势是建立标准化的基线,以便更公平地比较不同方法。
未来方向 跨学科:PEFT的未来进展可能来自跨学科的见解,特别是随着基础模型应用于从医学和自然科学到社会科学的各个领域。特别是,将领域特定的约束集成到PEFT框架中可能会导致更量身定制的微调方法。例如,在医学成像中,结合医学领域知识和低维先验或因果关系可以增强模型性能,即使只有最少的参数更新。 持续PEFT:PEFT为在特定任务上微调基础模型提供了一个表现良好的解决方案。然而,当这些方法适应一系列任务或动态数据流时,模型可能会干扰或覆盖已学习的知识。相比之下,持续学习专注于开发可以持续学习新任务同时保留已学习任务记忆和性能的系统。PEFT和持续学习的结合将使PEFT在动态变化的任务或环境中更加稳健。因此,开发用于持续学习的PEFT可能有助于在现实世界中构建更智能的学习系统。 PEFT的架构:了解特定架构对PEFT的适用性和优势,并探索如何为特定架构设计更有效的PEFT方案。例如,分析Transformer架构中不同层和组件对PEFT的响应特性,为架构优化和定制PEFT方法提供基础。 PEFT的缩放定律:当前的努力揭示了在可训练参数超过某个阈值后收益递减,表明参数选择的最佳范围。对于PEFT方法,理解这些缩放行为对于优化效率和指导未来研究至关重要。例如,当增加或减少PEFT方法(如LoRA、适配器或前缀微调)中的可训练参数数量时,性能如何缩放?这可以为未来的模型设计和微调策略提供指导。 分层抽象:PEFT中的分层抽象类似于人类大脑如何分层处理和存储信息。在大脑中,感官输入通过从低级感官神经元到高级认知区域的层层复杂性进行处理。这种分层方法使大脑能够创建抽象表示并理解复杂信息。类似地,PEFT通常通过调整模型不同层次的参数(如早期层用于一般特征,后期层用于任务特定适应)来工作。通过微调特定层或添加模块化结构,PEFT促进了任务的分层适应——反映了大脑从简单到复杂表示的能力。这种分层设计不仅提高了模型的灵活性,还允许跨任务有效重用现有知识。 脑启发的PEFT:有趣的是,PEFT与神经科学中的原则一致,特别是高效编码和突触可塑性理论。在大脑中,适应和学习通过优先考虑能量效率同时保持灵活性和稳健性的机制发生——这一概念与PEFT的目标产生了共鸣。例如,在人类大脑中,当我们学习新事物时,不是调整所有神经连接,而是仅修改特定的突触通路。这种选择性调整有助于在不显著破坏现有知识的情况下有效整合新信息。类似地,PEFT允许模型通过更新最少数量的参数来专门化和适应新任务,这与大脑中的神经回路为新技能或经验重组的方式一致。这种相似性为结合生物启发的机制提供了有趣的机会,这可能会导致更符合生物学和高效的微调过程。 八、结论
总之,PEFT与基础模型的集成展示了跨各种任务和领域高效模型适应的一个有前途的途径。正如本报告所强调的,基础模型的快速发展和活跃的PEFT社区强调了跟上技术趋势以实现最佳性能的重要性。通过探索适应策略(如选择性、加法、提示、重参数化和混合PEFT)以及跨不同模型结构(如LLM、VFM、VLM、MFM和VGM),本报告提供了关于提高效率和有效性的见解。报告强调了在多样化基础模型背景下系统理解PEFT技术的必要性,为该领域的未来进展和应用铺平了道路。