《多模态持续预训练实用指南》，52页pdf

多模态基础模型在视觉与语言交叉领域的众多应用中起着重要作用。然而，尽管这些模型在大量数据上进行了预训练，随着时间的推移，它们仍会变得过时。为了使模型保持更新，持续预训练的研究主要探讨了两种场景：(1) 在大规模新数据上进行不频繁的、不加区分的更新，或(2) 频繁进行样本级别的更新。然而，实际的模型部署往往在这两种极端情况之间运行，因为现实世界的应用通常需要模型适应特定的子领域、任务或概念——这些需求贯穿于模型的整个变化生命周期。在这项工作中，我们通过一个研究测试平台补充了当前对持续预训练的视角，并为这种场景下有效的持续模型更新提供了全面的指导。

我们首先介绍了FoMo-in-Flux，这是一个具有现实计算限制和实际部署需求的持续多模态预训练基准，基于63个具有多样化视觉和语义覆盖的数据集构建。在FoMo-in-Flux的基础上，我们从多个角度探讨了实际持续预训练的复杂景观：(1) 数据为中心的研究，探讨模拟现实世界部署情境的数据混合和数据流顺序；(2) 方法为中心的研究，从简单的微调和传统的持续学习策略，到参数高效的更新和模型合并；(3) 元学习率调度和机械设计选择；以及(4) 模型和计算扩展的影响。我们的见解共同为实际部署提供了一份持续多模态预训练的实用指南。我们的基准和代码在此处提供：github.com/ExplainableML/fomo-in-flux。

基础模型 [14]——无论是单模态还是多模态——被广泛应用，但其训练成本高昂 [143, 29]，需要庞大的数据集和大量的计算资源。尽管进行了巨大的投资，这些模型通常仍然具有有限的知识和概念覆盖 [181]，并且随着新任务和子领域的出现，会迅速变得过时。为了保持其相关性，模型需要持续预训练。总体来说，持续预训练方法分为两类：(1) 不频繁的大规模更新，需要大量的新数据和计算能力 [49, 77]；(2) 频繁但最小的更新，通常通过知识编辑或更新检索增强系统中的知识库，针对特定的信息片段 [28, 192, 136, 58]。然而，许多实际应用在这两种极端情况之间运行，要求专业知识——如细粒度的专家知识或语义和视觉分布的变化 [88, 217, 180, 165, 118, 140, 157, 56, 156, 226, 47, 138]——超越了简单的、局部的编辑。模型生命周期中这些不足的信息会随着新的部署场景的出现而不断涌现，通常不值得为此从头开始重新训练整个模型。使用语义版本控制框架 [144, 141] 的术语来说，这种专业的、小规模的更新超出了简单修补程序的范围，但不足以需要主要版本更新。

在这项工作中，我们提供了一个新的研究框架，以可控的环境模拟这些复杂的实际部署场景，用于视觉-语言基础模型，并研究在这些情况下成功进行持续预训练的不同要求。我们的贡献概述如下：

创建合适的基准。 为了在长模型生命周期内可控地研究多模态模型的不同专业（小规模）更新，我们引入了FoMo-in-Flux（Foundation-Models-in-Flux，见图1）。FoMo-in-Flux基于63个图像分类和图像-文本检索数据集（公开或本工作的一部分）构建，增强了字幕以实现多模态预训练。与TiC-RedCaps和DataComp [49, 45] 等单片、噪声较大的网页抓取数据集不同，FoMo-in-Flux包含经过精心挑选的高质量样本，具有细粒度的类别信息，并对跨越不同视觉和语义领域（如自然和合成图像、抽象或程序生成数据）的数据流进行了精确控制。

现实的持续预训练。 与传统的持续学习研究不同，我们避免了实际不必要的存储限制 [136, 137]，允许对预训练和适应数据的无限制访问。认识到部署成本和潜在补救措施的可行性主要是计算要求的函数，我们仅对计算预算施加限制。为了避免计算度量偏差 [38, 119]，我们使用内存调整浮点运算次数（MAFs）来实施约束，MAFs考虑了前向和后向传递的浮点运算次数以及所需的峰值设备（加速器）内存。

哪些方法对持续预训练有效？ 使用FoMo-in-Flux，我们确定了当前研究策略在多个连续的、小规模持续预训练更新中的可持续性——从现有的基于正则化的持续学习（CL）策略（如EWC [87] 和SI [210]）、简单微调、参数高效的适应（如LoRA [73] 和VeRA [89]），到模型合并 [79]。

持续预训练策略的重要性。 我们展示了持续预训练策略的重要性，超越了简单的方法选择，如学习率调度，并提出了任务依赖的元调度，以促进长期的、持续的、受控的模型更新。此外，我们研究了模型和计算扩展对持续模型可训练性的影响，并概述了设置持续多模态预训练管道时的重要实验设计选择。

数据为中心的持续预训练视角。 最后，模型应改进的概念和任务通常按顺序出现，由其部署的用例驱动，以及从反馈循环中不断发现的模型根本性缺陷 [46]。保留对语义和视觉概念序列的精细控制，使我们能够创建现实的、数据为中心的流。这使我们能够更好地理解概念和任务的不同排序如何影响积累新知识与保留现有信息之间的平衡。为此，我们研究了六种不同的数据流排序：(i) 从简单到困难的排序，(ii) 概念频率排序，(iii) 概念相似性排序，(iv) 按时间顺序排序，(v) 数据集增量排序和(vi) 随机排序。此外，我们提供了关于引入新概念和子领域时，数据混合对积累和保留权衡的影响的见解。

2 持续预训练的分类：版本控制视角

传统的持续学习通常被分类为类别增量、领域增量和任务增量设置 [182]。然而，持续预训练基准不适合这些分类，因为它们在字幕中表现出高度重叠，而不是不相交的类别 [77, 15, 103]，并且具有随时间变化的渐进类别和领域的转变 [49, 102, 21, 136, 104, 190]。同样，持续学习策略通常被分为回放 [25, 20]、正则化 [122, 87, 24] 和参数隔离方法 [225, 3, 228]，以及最近的添加项如提示调优 [194, 195, 169, 142]、固定表示 [117, 223, 139] 和模型混合方法 [115, 79]（参见 [224] 综述）。然而，基础模型的持续更新主要依赖于回放 [137, 49]、参数高效的微调 [63] 和检索增强方法 [186, 136, 58]，因为传统方法在计算约束下无助于提升 [64, 184, 136]，且不如简单基线表现 [139, 117, 137, 216]。因此，我们为持续预训练文献提供了一个新的分类方法。

我们对持续预训练文献的分类受到语义软件版本控制框架 [144] 的启发。我们认为，不同范围的更新需要不同的策略，这表明没有一个通用的解决方案适用于所有持续预训练场景（参见 [199] 综述，表1中对语义版本控制框架下相关基准的概述）。我们认为，基础模型需要类似于软件版本控制中的主要版本、小版本和补丁更新的不同更新策略：

主要更新。 大规模的持续预训练，涉及大量的计算、数据和时间资源，显著改变整体性能。关注重大更新的方法 [49, 77, 51] 一贯采用对模型的持续微调，这已被广泛比较发现是主要策略 [49, 193, 137, 27]。当前探索的话题包括通过持续的学习率调度 [60, 77, 212, 128, 75] 来最小化稳定性差距 [36]。 补丁更新。 频繁但小规模的定向更新，在这种情况下，持续微调导致零样本能力保留较差，同时获得的新知识有限。最好的管理方式是通过持续的知识编辑 [28, 192] 或使用固定骨干的样本级更新 [136, 229, 58, 117, 52]。

小版本更新。 适用于知识编辑之外的整个子领域和通用概念的调整，但不需要大规模的主要更新。一些示例包括：使用LoRA [63, 12, 110, 197] 更新模型的特定部分，模型合并 [79, 175, 188]，指令调优 [65, 219, 26]，结合特定子领域的专家知识或特定视觉分布的转变 [88, 217, 180, 165, 118, 140, 157, 56, 226, 47, 138]。可能需要小版本更新的实际情况包括引入新任务，如细粒度对象类别的视觉推理 [9, 187, 80, 131, 126, 170]，或新领域如素描 [30, 130]、绘画 [130, 100] 或合成 [19, 116] 和医学图像 [78, 41]。在我们的多模态设置中，这些小版本更新还可以涉及新概念或不常见的概念 [19, 116]，如前述的细粒度专家知识、医学应用或新组合 [81]。

概述。 为了理解基础模型持续小版本更新的实际范围，我们的工作结构如下：(1) 我们在第3节中介绍了FoMo-in-Flux，我们用于受控的持续多模态预训练的基准，详细介绍了涵盖的数据集、字幕处理过程和总体覆盖范围。(2) 第3.1.1节介绍了我们的人造模糊数据集，这些数据集侧重于长尾视觉和语义概念，同时模拟未来预训练数据中AI生成内容的增加。(3) 第3.2节和第3.3节概述了FoMo-in-Flux中的整体训练和评估流程，我们的内存调整浮点运算次数（MAFs）指标，相应的计算预算，以及模拟不同实际小版本更新场景的流序列。(4) 第4节提供了实验细节。(5) 第5节研究了参数高效的微调、持续学习方法（第5.1节）和模型合并（第5.2节）在持续预训练中的作用。(6) 第6节探讨了（元）学习率调度的影响（第6.1节），以及其他一般训练选择（第6.4节，第6.3节），随后在第7节中，我们开始了对持续小版本模型更新的数据中心研究：第7.1节探讨了不同的流序列排序，第7.2节研究了适应、预训练和缓冲数据之间的混合比率，第7.3节则考察了在各种预训练池中重放的影响。

结论

本工作介绍了FoMo-In-Flux——一个新颖的大规模、细粒度可控且具有长时间跨度的持续预训练基准。该基准将63个标准分类和图像-文本检索数据集整合到一个持续预训练设置中，通过图像重新标注和与网络规模预训练数据集的结合，适用于视觉-语言训练。利用FoMo-In-Flux，我们从数据为中心、方法为中心和训练策略为中心的角度，对如何持续预训练对比多模态模型进行了广泛的研究。主要发现如下：

模型合并策略在获取新知识和保留预训练知识之间的成功权衡中最为有前途； * 学习率很重要，特别是在通过元调度考虑更新周期的学习率调度中； * 增加模型规模使得更容易在不覆盖预训练上下文的情况下整合新知识； * 简单的计算扩展（例如更多的更新步骤）并不能同等地惠及所有方法，模型合并再次展示了最有利的特性； * 更新顺序会影响模型在知识积累与保留空间中的轨迹，但对流终点的影响较小； * 在流式处理期间对缓冲数据进行重放通常比对原始预训练数据（的各种子集）进行重放更为重要。

通过在统一且现实的计算预算内对不同模型系列进行研究和比较，我们相信本文能够为多模态持续预训练系统的实际部署提供若干实用指南，并且FoMo-In-Flux可以作为一个有意义的测试平台，以更好地理解持续预训练。

成为VIP会员查看完整内容

相关内容

持续学习

关注 25

持续学习(continuallearning,CL) 是模拟大脑学习的过程,按照一定的顺序对连续非独立同分布的 (independentlyandidenticallydistributed,IID)流数据进行学习,进而根据任务的执行结果对模型进行增量式更新．持续学习的意义在于高效地转化和利用已经学过的知识来完成新任务的学习,并且能够极大程度地降低遗忘带来的问题．连续学习研究对智能计算系统自适应地适应环境改变具有重要的意义

《基于信念的决策建模计算框架》141页

专知会员服务

65+阅读 · 2024年4月27日

《大型语言模型持续学习》综述

专知会员服务

90+阅读 · 2024年4月26日

空战机动模拟《动态对抗博弈中的单目标和多目标强化学习》240页

专知会员服务

128+阅读 · 2024年3月11日

【计算所&清华等新书】预训练方法信息检索，109页pdf

专知会员服务

65+阅读 · 2021年11月30日