这篇综述《超越微调: 从模型中学习》详述模型调整、模型蒸馏、模型重用、元学习和模型编辑

基础模型(FM)在众多任务中(尤其是自然语言处理和计算机视觉领域)展示了出色的性能,这主要归因于它们理解指令和获取大量高质量数据的能力。这不仅展示了它们目前的有效性,而且也为人工通用智能的发展设定了一个有希望的轨迹。不幸的是,由于多种约束,用于大型模型训练的模型的原始数据通常是无法访问的,因此使用端到端模型进行下游任务已成为一个新的研究趋势,我们在这篇文章中称之为从模型中学习(LFM)。LFM重点研究、修改和设计基于模型接口的FM,以便更好地理解模型结构和权重(在一个黑盒环境中),并将模型推广到下游任务。LFM技术的研究可以广泛地分为五个主要领域模型调整、模型蒸馏、模型重用、元学习和模型编辑。每个类别都包括一系列的方法和策略,旨在增强FM的能力和性能。本文从LFM的角度对基于FM的当前方法进行了全面的综述,以帮助读者更好地了解当前的研究状态和思路。最后,我们通过强调未来探索的几个关键领域并解决需要研究界进一步关注的开放性问题来总结这篇综述。我们在这篇文章中研究的相关论文可以在以下地址访问:https://github.com/ruthless-man/Awesome-Learn-from-Model。

随着算法和计算能力的快速发展,在工业界和学术界都引发了对大规模预训练模型的重大发展和兴趣。这些模型,如 GPT-3 [1]、LLAMA [2] 和 Imagen [3],利用超参数化变压器的威力,有效地以各种方式对自然语言进行建模。这种基础架构使这些模型能够处理大规模的语言和视觉任务,并在广泛的下游应用中展现出令人印象深刻的性能。FM 的持续增长和完善预示着自然语言处理和相关领域的充满希望的未来。 站在巨人的肩膀上,基于 FM 的研究在当前的格局中展示了前所未有的活力和创新[4]、[5]、[6]、[7]、[8]。这催生了一个新兴的研究范式,我们在本文中称之为从模型中学习 (LFM)。如图 2 所示,LFM 指的是研究基础模型,以了解模型的行为、优点和可能的不足之处。这种研究可以帮助我们更好地优化模型的性能,找到并修复模型的问题,最终使模型投入生产并更好地工作。

有许多原因支持从模型本身学习,而不是从用来训练模型的数据中学习。从数据隐私的角度看,大型模型通常是在大量数据上训练的,这些数据可能包含敏感信息,如个人身份信息和私人通信。直接研究这些数据可能会侵犯用户隐私[9]、[10]。但是,通过研究模型本身,我们可以避免直接接触这些敏感数据。同时,用于训练大型模型的数据涉及商业利益。这些数据作为模型所有者竞争优势的关键部分,通常不会被披露[11]。因此,普通用户通常只能访问API输入接口和模型的最终输出,这进一步促进了从模型本身学习的动机。从模型泛化能力的角度看,通过研究模型本身,我们可以更好地理解模型的泛化能力,即模型如何处理在训练期间尚未见过的新数据[12]、[13]、[14]。从数据中学习和从模型中学习这两种方法都有其优势和应用[15]。在有大量标记或未标记的数据可用的情况下,从数据中学习是基础;而当现有模型可以提供有价值的见解、加速训练或提高预测准确性时,从模型中学习是很有用的。这些方法在实践中经常相互补充,使研究人员和实践者能够构建创新和高性能的机器学习解决方案。

总体来说,从模型中学习有几个优点:从数据的角度看,由于数据隐私和存储成本等因素,中小企业甚至个人用户很难获得数据来训练高质量的模型。现有的基础模型高度压缩了大规模原始数据的特征信息,在基于LFM范式的情况下,对原始数据的需求可以尽可能地减少。从计算的角度看,随着基础模型的参数从GPT-3的175B参数增加到GPT-4的1.8T参数,重新训练模型的计算能力需求呈指数级增长[16]。与下游任务调优相结合的基础模型的范式已成为一种替代方案,可以节省大量的计算成本。从知识表示的角度看,大型模型所展现的“Emergent Abilities”[17] 能够在通用任务中表现出非凡的性能,而这背后的机制很难通过小型模型的组合来获得。与此同时,基础模型的自我监测能力可以为下游应用提供动力和理论基础。最后,从行业的角度看,精心调整参数的FM API纷纷涌现,基于高质量FM在新任务上的SOTA性能已经成为公认的范式。随着大型模型时代的到来,我们可以预见,LFM将取代传统的从数据中学习的范式,成为一种新的思维方式。 本文根据其应用场景将FM的范式进行分类,包括模型调整、模型蒸馏、模型融合、模型重用、元学习和模型编辑。在调查的最后部分,我们分析并为FM的未来应用提供预测。模型调整[18]的主要工作是设计FM(修改内部参数、添加额外组件)以在下游任务上实现高效的性能。这种方法允许模型快速适应新任务,避免了从头开始训练模型的巨大计算成本。上述技术都是LFM的示例。模型蒸馏[8]将大模型(教师模型)的知识转移到一个小模型(学生模型)中,该小模型可以在资源受限的环境中运行,同时保持与大模型类似的性能。模型重用[19]从模型中学习优点,结合多个模型的预测以提高整体性能。元学习[20],也被称为“学习从模型中学习”,作为一种设计模型以使其快速适应新任务的方式,同样被纳入LFM的范畴。随着真实世界的快速变化,FM内部的知识不可避免地存在准确性不足的问题。模型编辑[21]通过直接调整模型行为来解决模型知识的缺陷,避免了重新训练模型所导致的巨大资源消耗。我们的贡献可以总结为以下几点:

基于对当前研究的深入理解,我们首先总结并提出了LFM的概念,旨在概述基于FM的研究,从传统的从数据中学习的范式中解放思维。 • 与现有的调查相比,我们提供了一个更系统的LFM调查。我们的调查包括LFM方法的具体分类和前沿分析,以及相应的应用趋势,为该领域提供了一个更全面的概览。 • 我们的研究为科学界提供了一个垫脚石,揭示了在追求从大型预训练模型中学习的过程中所面临的各种机会和挑战。我们希望我们的工作能促进对LFM范式的更深入理解,催生出的突破最终将在未来几年中惠及工业和学术界。

整篇文章的结构****如下:我们首先在第1部分介绍了LFM技术的定义和相关分类,第2部分描述了模型调整,第3部分回顾了模型蒸馏技术,第4部分回顾了模型重用,第5部分介绍了元学习在LFM范式中的应用,第6部分介绍了模型编辑。LFM的未来方向在第7部分进行了讨论。最后,论文在第8部分进行了总结。

2. 模型调整 (Model Tuning)

作为LFM的范式之一,模型调整的主要目标是为迁移到下游任务设计FM的参数。与基于数据为新任务(从数据中学习)的重新训练模型相比,基于迁移学习的模型调整的思想减少了数据集不足和高训练成本的隐患,并利用FM本身存储的常识知识为新任务的参数初始化提供便利。模型调整的成功需要深入研究预训练模型的内部结构和动态,了解FM如何编码输入数据,并识别强烈影响预测结果的特定组件。另一方面,根据模型参数的修改程度和修改位置,模型调整可以进一步划分为权重调整、输入工程和数据库增强。权重调整基于FM的内部参数,输入工程从输入级别设计更好的建议,数据库增强基于外部数据库更新模型知识以确保模型的准确性。

3 模型蒸馏 (MODEL DISTILLATIO) 模型蒸馏是一种知识蒸馏技术,主要用于压缩深度学习模型,减少计算复杂性,增加运行速度,节省存储空间,同时保持原始模型的性能[94]。我们在图6中展示了三种传统的知识技术。知识可以从各种来源获得,如软标签预测[94]、隐藏层激活[95]、[96]、嵌入[97]、[98]或嵌入关系[99]。随着FM的出现,研究者开始探讨是否可以将FM用作数据库[100],教导学生模型而不访问训练数据。其中的关键见解是如何从FM中引导有用的知识。在以前的研究中,这些工作被称为无数据知识蒸馏(DFKD)[101]、[102]、[103]。在一个白盒场景中,我们可以访问教师模型的架构、梯度、参数和权重。相反,在一个黑盒场景中,我们缺乏对底层模型架构和参数的先验知识。相反,每个模型都被提供为一项服务(MaaS)[104]。基于以前的研究,DFKD方法可以被分类为三种不同的范例:噪声优化、生成重建和对抗探索。

**4 模型复用 **

在真实的训练过程中,常见的做法是使用各种超参数设置来训练多个模型。随后,选择性能最好的模型,或创建模型集成以获得更好的性能[129]。然而,集成模型在推断时需要额外的计算资源,而选择单一模型经常导致丢弃其余的模型。在真实的训练过程中,尝试不同的超参数设置以探索模型的潜力是至关重要的。使用多种超参数配置训练多个模型使我们能够捕捉更广泛的信息并找到最佳解决方案。然而,在这些训练模型中手动选择最佳模型可能是一项艰巨的任务。它通常需要大量的计算资源,因为训练和评估每个模型可能会耗费大量时间。另一方面,集成提供了一种强大的解决方案,以利用多个模型的知识。通过组合个体模型的输出或预测,我们可以创建一个性能更好的集成模型。

5 元学习 元学习通过从多个相关任务中提取经验(通常是数据分布)来提高模型在新任务上的性能。元学习的核心思想是,随着经验的增加,学习变得更加高效,这是通过获取有助于未来学习的归纳偏见或知识来实现的[163],[164]。元学习的抽象公式可以如下表示

6 模型编辑

在预训练模型的巨大计算开销下,更新模型内部的知识不仅仅是一个简单的“学习任务”。理想情况下,随着世界各种情况的复杂转变,大型模型也应该随时随地跟上时代的步伐[206],[207],但训练新的大型模型的计算负担不能使大型模型实现即时更新,因此基于原始预训练模型的知识更新算法受到了广泛关注。作为LFM范式之一的模型编辑,可以在不对其他输入的结果产生不良影响的情况下有效地改变预训练模型在特定领域的知识。模型编辑可以更好地为其他LFM范式服务,因为所有LFM范式对模型本身的知识存储和输出准确性都有很高的要求。 需要明确的是,尽管都涉及参数和结构调整,模型编辑和模型微调并不是面向同一个任务。模型微调的主要目的是使用预训练模型进行下游任务,而模型编辑则从宏观角度关注更新模型内部的整体知识库或领域知识库,并且不需要专门为一个任务设计。模型编辑可以被认为是模型微调的先决条件。

为了提供大型语言模型演变的视觉呈现,我们在图9中创建了一个时间线。这个时间线展示了近年来学术界提出的知名大型模型的名称和主要贡献。通过视觉呈现这些信息,读者可以全面了解在大规模预训练领域中正在发生的先进技术和创新。基于这些模型所奠定的基础,研究者可以进一步增强其能力,探索新方法,并开辟新途径来解决复杂的语言理解和生成挑战。

**结论 **

在本综述中,我们全面回顾了从模型学习的概念,涵盖了模型微调、模型蒸馏、模型复用、元学习和模型编辑等方法。每种方法都以不同的方式和不同的上下文使用预训练模型,以获得更好的性能或解决特定任务。我们系统地总结了从早期探索到现在的相关研究,不仅提供了每种方法如何工作的详细概述,还讨论了它们的优点和局限性。我们深入探讨了这些方法在处理现实世界问题时的表现,以及在实施过程中可能遇到的挑战。

此外,我们还分析了当今面临的主要挑战,包括模型的可解释性、安全性和公平性等问题,以及如何有效地微调和编辑模型以适应新任务或领域。最后,我们提出了一些建议的未来方向,探讨了如何通过进一步的研究来解决这些挑战,以及新技术和方法如何可能推动这一领域的发展。我们相信,本次调查将使语言模型、知识图谱、知识库等领域的研究者受益,为他们提供了一个全面的参考资源,以了解当前的最新方法,以及如何应用这些方法来改进他们的研究和应用。

成为VIP会员查看完整内容
54

相关内容

【KDD2022教程】多模态自动机器学习教程,130页ppt
专知会员服务
75+阅读 · 2022年8月19日
【ICML2020】基于模型的强化学习方法教程,279页ppt
专知会员服务
123+阅读 · 2020年7月20日
【干货书】优化算法,232页pdf
专知
21+阅读 · 2022年9月8日
【干货书】概率,统计与数据,513页pdf
专知
29+阅读 · 2021年11月27日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
Arxiv
131+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
325+阅读 · 2023年3月31日
Arxiv
53+阅读 · 2023年3月26日
Arxiv
111+阅读 · 2023年3月24日
VIP会员
相关VIP内容
【KDD2022教程】多模态自动机器学习教程,130页ppt
专知会员服务
75+阅读 · 2022年8月19日
【ICML2020】基于模型的强化学习方法教程,279页ppt
专知会员服务
123+阅读 · 2020年7月20日
相关基金
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员