当前流行的机器学习范式涉及对每一个新任务使用静态数据集训练一个独立模型。与之相反,人类会随时间积累知识,终身学习范式旨在通过使系统能够持续地从一系列任务中学习,并保留过去的知识以实现未来学习的高效性,来模拟这一过程。这种范式还提供了诸如避免定期模型训练、潜在地减少计算和能源需求、以及促进环保的绿色人工智能等优势。在现代机器学习中,尽管深度神经网络功能强大,但面临如灾难性遗忘(在新任务学习中丢失先前任务的知识)和负面干扰(先前学到的知识阻碍新任务学习)等挑战。这些问题源于稳定性-可塑性困境,这需要在保留过去知识(稳定性)与获取新知识(可塑性)之间找到正确的平衡。高效的终身学习系统必须解决这一困境,以及其他考虑,如支持在线数据流、利用小型且固定的内存缓冲容量(如果有的话)和从未标记的数据流中学习。
在本文中,我们从生物学习过程和深度学习的最新进展中获得灵感,以实现高效的终身学习系统。我们提出将归纳偏置注入数据驱动机器学习的三个主要组成部分:模型(架构与初始化)、训练(目标与优化)和数据。本论文分为三个部分,每个部分对应以上一个组件。在第一部分中,我们探索了预训练初始化的角色,揭示了它们与随机初始化相比在减轻遗忘方面的隐性优势。接下来,我们设计了一个参数高效的专家架构,该架构动态扩展学习容量以解决稳定性-可塑性困境。在第二部分中,我们展示了针对平坦极小值的显式优化如何改善网络稳定性,并引入了一个元学习目标以平衡稳定性与可塑性。第三部分深入探讨了终身半监督学习,通过复习伪标记数据来解决稳定性-可塑性困境。我们以从终身学习的角度检验预训练结束,展示通过将上述策略应用于模型的(持续)预训练,如何增强其性能。
在过去的十年中,训练硬件的进步和大数据集的可用性使得深度神经网络在机器学习领域取得了显著进展。这些网络在许多自然语言处理和计算机视觉任务中达到或超过了人类水平的表现,例如机器翻译(Lepikhin et al., 2021)、问答(Du et al., 2022; Chowdhery et al., 2023)、开放式对话生成(Ouyang et al., 2022)、对象检测和图像生成(Lu et al., 2023),这些评估是基于独立同分布(i.i.d)的保留数据进行的。然而,当这些网络应用于数据分布随时间变化的现实情况时,它们的表现往往会变差(Lazaridou et al., 2021)。它们失败的主要原因是当前的机器学习方法专注于孤立学习(Chen and Liu, 2018),即使用静态数据集为每个新任务或一组相关任务训练一个单独的网络。一种保持这些网络更新的方法是每当新信息变得可用时就从头开始重新训练它们。然而,先前训练所用的数据可能因隐私或存储限制而只是暂时可用(Farquhar and Gal, 2018)。此外,重新训练方法可能在计算上昂贵,数据效率低,且耗时长,尤其是对于大型网络。例如,GPT-3(Brown et al., 2020),一个具有175B参数的自回归语言模型,训练了499B个标记,使用的计算量相当于3.14e23次浮点操作,如果在单个NVIDIA Tesla V100 GPU上训练,将需要355年和460万美元的成本。另一种方法是连续地随着新信息的到来更新网络。然而,深度神经网络和一般的参数模型容易发生灾难性遗忘(McCloskey and Cohen, 1989; Ratcliff, 1990; French, 1999)现象。在这种现象中,网络在新信息被整合进系统时会忘记或覆盖之前学到的知识。此外,这些网络可能会经历负面干扰(Pan and Yang, 2009; Weiss et al., 2016)现象,即先前学到的知识可能会妨碍新事物的有效学习,从而增加了数据需求。这两种现象都源于稳定性-可塑性困境(Mermillod et al., 2013)。稳定性与保留过去的知识有关,可塑性与学习新知识有关。需要一种平衡,因为过多的稳定性会阻碍新知识的获取,而过多的可塑性会导致忘记以前的知识。这一困境使得当前网络难以更新其知识,并有效地适应新任务的增量学习。
与此相反,我们人类的学习方式则大不相同。我们通过在一生中获取和更新知识来学习,保留以前学到的知识,并利用它来促进新概念和技能的有效学习。受到这种人类学习过程的启发,终身学习(Thrun and Mitchell, 1995; Thrun, 1995; Chen and Liu, 2018)或增量学习(Solomonoff et al., 1989; Syed et al., 1999; Ruping, 2001)或永不停止的学习(Mitchell et al., 2018)或连续学习(Parisi et al., 2019)范式旨在开发能够从持续的数据流中学习的系统,理想情况下保留过去的知识,用新信息更新它,并利用它进行后续学习。此外,研究人员也认识到终身学习能力对于实现人工通用智能的进展至关重要(Silver, 2011; Chen and Liu, 2018; Yogatama et al., 2019)。除了与生物学习相似之外,终身学习范式还有潜力通过消除过度模型重新训练来减少能源浪费,并实现环保和可持续的绿色人工智能(Hazelwood et al., 2018; Strubell et al., 2019; Schwartz et al., 2020)。终身学习范式还与其他知识转移相关的范式有关,如转移学习(Pan and Yang, 2009)和多任务学习(Caruana, 1997)。与这两个范式不同的是,终身学习范式更为通用;它假设对任务的顺序访问,旨在改善对先前任务的表现(理想情况下是积极的后向转移或消极的遗忘)和新任务的表现(积极的前向转移)。当前的转移学习范式主要关注从以前的任务到新任务的单向知识转移,即使这可能损害先前学到的任务的表现。另一方面,多任务学习假设同时访问所有任务的数据,并通过使任务之间的知识共享来改善所有任务的表现。此外,即使在单任务学习设置中,神经网络也显示出经历灾难性遗忘的情况(Toneva et al., 2019),这突出了终身学习范式不仅限于多任务场景。即使是任务的概念在终身学习范式中也非常开放。例如,考虑一个终身COVID-19命名实体识别(NER)标记器。任务有三种不同的表现形式 - (i)分类任务,如实体块、实体检测、实体链接、共指解析和关系提取,(ii)针对2020、2021、2022、2023年COVID-19研究文章的不同领域的NER,(iii)针对COVID-19变种如COVID-Alpha、COVID-Beta、COVID-Omicron的演化类别的NER。这些表现形式对应于终身学习的三个突出场景:任务、领域和类别增量学习(Van de Ven and Tolias, 2019)。除了解决灾难性遗忘之外,终身学习系统还有几个其他目标(Biesialska et al., 2020)。人类能够迅速从持续的对话中学习新信息,而不需要明确的主题边界(Chen and Liu, 2018)。我们有选择地保留过去的经验在我们有限的记忆容量中以防止遗忘,并在需要时稀疏地回放它们(Ratcliff, 1990; McGaugh, 2000)。此外,我们经常从环境中以无监督的方式学习,而不是依赖于明确的监督(Aljundi, 2019)。相比之下,当前的终身学习系统(Biesialska et al., 2020)需要明确的任务边界,它们依赖于大内存容量,因此数据效率低,且在计算上昂贵,因为它们需要对标记数据进行多次传递。为了更有效地模仿人类学习,有必要开发在更现实的假设下运行且在数据、记忆和计算上更高效的终身学习系统(Farquhar and Gal, 2018)。 在本论文中,我们的目标是设计高效的终身学习系统,这些系统可以减轻之前学到的知识的灾难性遗忘,并通过在现实假设下运行来促进未来的学习。受到生物学习过程和深度学习的最新进展的启发,我们提议将适当的归纳偏见注入数据驱动机器学习的三个主要组成部分:模型、训练和数据。通过这样做,我们还希望提高终身学习系统在数据、内存和计算需求方面的效率。