目前流行的机器学习范式涉及针对每个新任务训练一个单独的模型,给定一个静态数据集。与此相反,人类随着时间的推移积累知识,而终身学习范式试图通过使系统能够持续从任务流中学习来模仿这一过程,保留过去的知识以实现高效的未来学习。这一范式还提供了诸如避免周期性模型训练、潜在减少计算和能源需求以及促进环保的绿色AI等优势。在现代机器学习中,深度神经网络虽然强大,但面临着灾难性遗忘(在新任务学习过程中丢失之前任务的知识)和负面干扰(先前学到的知识阻碍新任务学习)等挑战。这些问题源于稳定性-可塑性困境,需要找到保留过去知识(稳定性)与获取新知识(可塑性)之间的正确平衡。高效的终身学习系统必须解决这一困境,以及其他考虑因素,如支持在线数据流,利用小型和固定的内存缓冲容量(如果有的话),以及从未标记的数据流中学习。在这篇论文中,我们从生物学习过程和深度学习的最新进展中汲取灵感,以实现高效的终身学习系统。我们提出将归纳偏置注入数据驱动机器学习的三个主要组成部分:模型(架构和初始化)、训练(目标和优化)和数据。本论文分为三个部分,每部分对应上述的一个组成部分。在第一部分,我们探讨了预训练初始化的作用,揭示了与随机初始化相比,它们对遗忘的隐性缓解。接下来,我们设计了一个参数高效的专家架构,动态扩展学习能力以解决稳定性-可塑性困境。在第二部分,我们展示了针对平坦极小值的显式优化如何提高网络稳定性,并引入了一个用于稳定性-可塑性平衡的元学习目标。第三部分深入探讨了终身半监督学习,通过复习伪标签数据解决稳定性-可塑性困境。我们以从终身学习的角度审视预训练作为结论,通过将上述策略应用于模型的(持续)预训练,展示了增强效果。
在过去的十年中,训练硬件的进步和大型数据集的可用性使深度神经网络在机器学习领域取得了重大进展。这些网络在多项自然语言处理和计算机视觉任务中达到或超过了人类水平的表现,例如机器翻译(Lepikhin et al., 2021)、问题回答(Du et al., 2022; Chowdhery et al., 2023)、开放式对话生成(Ouyang et al., 2022)、对象检测和图像生成(Lu et al., 2023),当评估独立同分布(i.i.d)的保留数据时。然而,当这些网络应用于数据分布随时间变化的真实情况时,它们的表现往往会变差(Lazaridou et al., 2021)。它们失败的主要原因是,当前的机器学习方法集中于孤立学习(Chen and Liu, 2018),即使用静态数据集为每个新任务或一组相关任务训练一个单独的网络。一种使这些网络保持最新的方法是,每次有新信息可用时就从头开始重新训练它们。然而,由于隐私或存储限制,之前用于训练的数据可能只是暂时可用(Farquhar and Gal, 2018)。此外,重新训练方法可能在计算上昂贵、数据效率低下且耗时,特别是对于大型网络。例如,GPT-3(Brown et al., 2020),一个具有1750亿参数的自回归语言模型,训练了4990亿个标记,使用的计算量相当于3.14e 23浮点运算,并且在单个NVIDIA Tesla V100 GPU上的训练需要355年和460万美元。另一种方法是,随着新信息的持续到来,不断更新网络。然而,深度神经网络和一般的参数模型容易发生灾难性遗忘现象(McCloskey and Cohen, 1989; Ratcliff, 1990; French, 1999)。在这种现象中,网络在将新信息纳入系统时,忘记或覆盖之前学到的知识。此外,这些网络可能会经历负面干扰现象(Pan and Yang, 2009; Weiss et al., 2016),在此现象中,之前学到的知识可能会阻碍新事物的有效学习,导致数据需求增加。这两种现象源于稳定性-可塑性困境(Mermillod et al., 2013)。稳定性涉及保留过去的知识,可塑性涉及学习新知识。需要平衡,因为过多的稳定性会阻碍新知识的获取,过多的可塑性会导致忘记之前的知识。这个困境使得当前网络难以更新其知识,并有效地适应新任务的增量学习。 与此相反,我们人类的学习方式大不相同。我们通过在一生中获取和更新知识来学习,保留之前学到的知识,并利用它来有效地学习新的概念和技能。受到这种人类学习过程的启发,终身学习(Thrun and Mitchell, 1995; Thrun, 1995; Chen and Liu, 2018)或增量学习(Solomonoff et al., 1989; Syed et al., 1999; Ruping, 2001)或永不停歇的学习(Mitchell et al., 2018)或持续学习(Parisi et al., 2019)范式旨在开发能够从持续数据流中学习的系统,理想情况下保留过去的知识,用新信息更新它,并利用它进行后续学习。此外,研究人员已经认识到终身学习能力对于实现人工通用智能的进展至关重要(Silver, 2011; Chen and Liu, 2018; Yogatama et al., 2019)。除了与生物学习相似之外,终身学习范式还有潜力通过避免过度模型重新训练来减少能源浪费,并实现环保和可持续的绿色AI(Hazelwood et al., 2018; Strubell et al., 2019; Schwartz et al., 2020)。
终身学习范式还与其他知识转移相关的范式有关,如迁移学习(Pan and Yang, 2009)和多任务学习(Caruana, 1997)。与这两个范式不同,终身学习范式更为通用;假设顺序访问任务,它旨在改善对之前任务(理想情况下是积极的向后转移或负面遗忘)和新任务(积极的向前转移)的表现。当代迁移学习范式主要集中于从之前的任务向新任务进行单向知识转移,以提高新任务的表现,即使这会损害之前学到任务的表现。另一方面,多任务学习假设同时访问所有任务的数据,并通过使它们之间的知识共享来提高所有任务的表现。此外,即使在单任务学习设置中,神经网络也被证明会经历灾难性遗忘(Toneva et al., 2019),强调终身学习范式不仅限于多任务场景。甚至在终身学习范式中,任务的概念也非常开放。例如,考虑一个终身COVID-19命名实体识别(NER)标记器。任务有三种不同的表现形式 - (i)分类任务,如实体块分割、实体检测、实体链接、共指解析和关系提取,(ii)针对2020、2021、2022、2023年COVID-19研究文章不断变化的领域的NER(iii)针对COVID-Alpha、COVID-Beta、COVID-Omicron等COVID-19变种的演化类别的NER。这些表现形式对应于终身学习中的三个突出场景:任务、领域和类增量学习(Van de Ven and Tolias, 2019)。
除了解决灾难性遗忘之外,终身学习系统还有几个其他目标(Biesialska et al., 2020)。人类可以迅速从持续的对话中学习新信息,而不需要明确的话题边界(Chen and Liu, 2018)。我们有选择地保留过去的经验在我们有限的记忆容量中以防止遗忘,并在需要时稀疏地回放它们(Ratcliff, 1990; McGaugh, 2000)。此外,我们经常以非监督的方式从我们的环境中学习,而不是依赖于明确的监督(Aljundi, 2019)。相比之下,当前的终身学习系统(Biesialska et al., 2020)需要明确的任务边界,它们依赖于大容量记忆,因此在数据上效率低下,并且因为它们需要对标记数据进行多次传递而在计算上昂贵。为了更有效地模仿人类学习,有必要开发在更现实的假设下运行并且在数据、记忆和计算上都高效的终身学习系统(Farquhar and Gal, 2018)。