「连续学习Continual learning, CL」最新2022研究综述

摘要：近年来，随着信息技术的不断发展，各种数据呈现爆炸式的增长，传统的机器学习算法只有当测试数据与训练数据分布类似时，学习算法才能取得较好的性能，换句话说，它们不能在动态环境中连续自适应地学习，然而，这种自适应学习的能力却是任何智能系统都具备的特性.深度神经网络在许多应用中显示出最好的学习能力，然而，使用该方法对数据进行增量更新学习时，会面临灾难性的干扰或遗忘问题，导致模型在学习新任务之后忘记如何解决旧任务. 连续学习(continual learning, CL)的研究使这一问题得到缓解.连续学习是模拟大脑学习的过程，按照一定的顺序对连续非独立同分布的(independently and identically distributed, IID)流数据进行学习，进而根据任务的执行结果对模型进行增量式更新. 连续学习的意义在于高效地转化和利用已经学过的知识来完成新任务的学习，并且能够极大程度地降低遗忘带来的问题.连续学习研究对智能计算系统自适应地适应环境改变具有重要的意义. 基于此，系统综述了连续学习的研究进展，首先概述了连续学习的定义，介绍了无遗忘学习、弹性权重整合和梯度情景记忆3种典型的连续学习模型，并对连续学习存在的关键问题及解决方法进行了介绍，之后又对基于正则化、动态结构和记忆回放互补学习系统的3类连续学习模型进行了分类和阐述，并在最后指明了连续学习进一步研究中需要解决的问题以及未来可能的发展方向.

https://crad.ict.ac.cn/CN/10.7544/issn1000-1239.20201058#1

近年来,随着机器学习(machinelearning,ML) 领域的快速发展,机器学习在自然图像分类、人脸识别等领域取得了一定的成果,深度学习的成功使机器学习的发展达到了另一个新的高度．然而,在现实世界中,机器学习系统总是会遇到连续任务学习问题,因此,如何对连续任务进行有效学习是当前研究的重点之一．现有的机器学习方法虽然可以在任务上取得较高的性能,但只有当测试数据与训练数据概率分布类似时,机器学习才能取得较好的性能．换句话说,目前的机器学习算法不能在动态环境中持续自适应地学习,因为在动态环境中,任务可能会发生显著变化,然而,这种自适应的学习能力却是任何智能系统都具有的能力,也是实现智能生物系统学习的重要标志．

目前,深度神经网络在许多应用中显示出非凡的预测和推理能力,然而,当通过基于梯度更新的方法对模型进行增量更新时,模型会出现灾难性的干扰或遗忘问题,这一问题将直接导致模型性能的迅速下降,即模型在学习新任务之后,由于参数更新对模型引起的干扰,将使得学习的模型忘记如何解决旧任务．人类和动物似乎学到了很多不同的知识,并且总是能不遗忘过去学到的知识,并将其应用在未来的学习任务中,受人和动物这种学习方式的启发, 很自然地将这种想法运用到机器学习领域,即随着时间的推移,模型能够不断学习新知识,同时保留以前学到的知识,这种不断学习的能力被称为连续学习．连续学习最主要的目的是高效地转化和利用已经学过的知识来完成新任务的学习,并且能够极大程度地降低灾难性遗忘带来的问题．近年来,随着深度学习的不断发展,连续学习的研究已经受到极大的关注,

因为连续学习主要有２点优势: **１)不需要保存之前任务上学习过的训练数据, 从而实现节约内存,同时解决了由于物理设备(例如机器内存)或学习策略(例如隐私保护)的限制,导致数据不能被长期存储这一问题． **

２)模型能够保存之前任务所学习的知识,并且能够极大程度地将之前任务学习到的知识运用到未来任务的学习中,提高学习效率。

****１连续学习概述 **

**1.1 连续学习的形成与发展 **

在现实世界中,机器学习系统处于连续的信息流中,因此需要从不断改变的概率分布中学习和记住多个任务．随着时间的推移,不断学习新知识,同时保留以前学到知识,具备这种不断学习的能力称为连续学习或终身学习．因此,使智能学习系统具备连续学习的能力一直是人工智能系统面临的挑战[１Ｇ２]．灾难性遗忘或灾难性干扰一直是连续学习所研究的重点,即当模型对新任务进行学习时会遗忘之前任务所学习的知识,这种现象通常会导致模型性能的突然下降,或者在最坏的情况下,导致新知识完全覆盖旧知识．因此,克服灾难性遗忘是人工智能系统迈向更加智能化的重要一步．早期学者们曾尝试为系统增加一个存储模块来保存以前的数据,并定期对之前所学的知识与新样本的交叉数据进行回放来缓解灾难性遗忘这一问题[３],这类方法一直延续至今[４Ｇ５]．然而,基于存储模块连续学习方法的一个普遍缺点是它们需要显式存储旧任务信息,这将导致较大的工作内存需求,此外,在计算和存储资源固定的情况下,应设计专门的机制保护和巩固旧的知识不被新学习的知识所覆盖．在此基础上,Rusu 等人[６Ｇ７]尝试在新任务到来时,分配额外的资源来缓解灾难性遗忘．然而,这种方法随着任务数量的不断增加,神经网络架构将不断增加,进而直接降低模型的可伸缩性．由于连续学习场景中不能预先知道任务数量和样本大小,因此, 在没有对输入训练样本的概率分布做出很强的假设情况下,预先定义足够的存储资源是不可避免的．在这种情况下,Richardson等人[８]提出了针对连续学习模型避免灾难性遗忘的３个关键方面:１)为新知识分配额外的神经元;２)如果资源是固定的,则使用新旧知识的非重叠表示;３)把旧的知识叠加到新的知识上作为新的信息．在此基础上,受神经科学理论的启发,基于正则化策略、动态结构策略以及记忆策略等一系列连续学习的方法相继被提出．

如图１所示,在连续学习过程中,智能体逐个对每个连续的非独立均匀分布流数据示例进行学习, 并且该智能体对每个示例只进行一次访问．这种学习方式与动物学习过程更为接近．如果我们忽略各个任务的先后次序问题,单独训练每个任务,这将导致灾难性遗忘,这也是连续学习一直以来所面临的最大问题．因此,连续学习的本质,是通过各种手段高效地转化和利用已经学过的知识来完成新任务的学习,并且能够极大程度地降低遗忘带来的问题。

**1.2 连续学习场景 **

连续学习的问题是指模型能够连续学习一系列任务,其中,在训练期间,只有当前任务数据可用,并且假设任务间是有明显的分界[９]．近年来,对这一问题,研究者们已展开积极的研究,提出了许多缓解连续学习过程中灾难性遗忘的方法．然而,由于各实验方案的不同,因此直接对各方法进行比较评估显然不可行．尤其是模型任务标识不可用等问题,这将直接影响模型实现的难易程度．因此,为了使评价更加标准化,并且也为了使实验结果比较更具意义,在此首先对连续学习过程中的３个学习场景进行简要概括[１０],如表１所示:

在第１个学习场景中,模型总是被告知需要执行哪些任务,这也是最简单的连续学习场景,将其称为任务增量学习(taskＧincrementallearning,TaskＧ IL)．近年来,提出的大部分连续学习方法在此场景都是适用的,且都具有较好的实验效果,例如正则化方法和动态结构方法等．在第２个学习场景中,通常将其称之为域增量学习 (domainＧincrementallearning,DomainＧIL), 任务标识不可用,模型只需要解决手头的任务,模型也不需要推断这是哪个任务．文献[１１]的实验结果证明,基于情景记忆的方法在该场景下有较好的实验结果,例如 GER,DGR,RtF 等,然而基于正则化方法,例如 EWC,LwF,SI等,模型学习的准确率相对较差．在第３个学习场景中,模型必须能够解决到目前为止所看到的每个任务,并且还能够推断出它们所面临的任务,将此场景称为类增量学习 (classＧ incrementallearning,ClassＧIL),在该场景中包含一个很常见的实际问题,即增量地学习对象的新类．此场景是这３个场景中最为复杂的,也是最接近现实中的学习场景,近年来,针对此场景下的连续学习方法也相继提出．例如,通过存储之前任务数据的样本,缓解系统遗忘方法:文献[５]提出一种iCarl的连续学习方法,该方法通过在每个类中找出 m 个最具代表性的样本,那么其平均特征空间将最接近类的整个特征空间,最后的分类任务是通过最接近样本均值的分类器来完成的;文献[１２]介绍了对遗忘和不妥协量化的度量方法,进而提出一种称为 RWalk 方法,完成类增量场景下的学习;文献[１３]提出一种动态网络扩展机制,通过由所学习的二进制掩码动态确定网络所需增加的容量,以确保足够的模型容量来适应不断传入的任务．

**1.3 连续学习相关领域研究 **

连续学习相关的领域研究主要包括多任务学习和迁移学习． １) 多任务学习．多任务学习的目的是能够结合所有任务的共同知识,同时改进所有单个任务的学习性能,因此,多任务学习要求每个任务与其他任务共享模型参数,或每个任务有带约束的模型参数,别的任务能够给当前学习任务提供额外的训练数据, 以此来作为其他任务的正则化形式．也就是说,多任务学习的良好效果依赖于单个函数的共享参数化以及对多个损失同时进行估计和求平均．当同时训练多个任务的共享层时,必须学习一个公共表示,从而有效地对每个任务进行交叉正则化,约束单个任务的模型．对于神经网络而言,Caruana [１４]对多任务学习进行了详细的研究,指出网络的底层是共享的,而顶层是针对于特定任务的,多任务学习需要所有任务的数据,此外,多任务学习随着时间的推移,不会积累任何知识,也就是说没有持续学习的概念,这也是多任务学习的关键问题所在． ２)迁移学习．迁移学习是使用源域来帮助另一个任务完成目标域学习的一种学习方式[１５]．它假设源域S 中有大量的标记训练数据,而目标域T 只有很少或没有标记的训练数据,但有大量未标记的数据．迁移学习可以利用被标记的数据来帮助完成目标域中的学习．然而迁移学习与连续学习,主要有４个不同:①迁移学习不是连续的,它仅仅是使用了源域来帮助完成目标域学习;②迁移学习并没有将过去所学的知识进行积累;③迁移学习是单向进行的,也就是说,迁移学习仅可使用源域来帮助完成目标域的学习,然而,连续学习是可以在任何方向上进行学习的;④迁移学习假设源域与目标域非常相似, 且这种相似性是人为决定的,然而在连续学习中并没有做出这样一个很强的限制性假设．

２连续学习的典型模型

**2.1 无遗忘学习 **

Li等人[１６]在２０１７年提出了一种由卷积神经网络(convolutionalneuralnetwork,CNN)组成的无遗忘学习(learningwithoutforgetting,LwF)方法, 该方法将知识蒸馏(knowledgedistillation,KD)[１７] 与细调方法[１８]相结合,其中,利用知识蒸馏策略来避免对之前知识的遗忘．

**2.2 弹性权重整合 **

Kirkpatrick等人[１９]在２０１７年提出了一种结合监督学习和强化学习方法,即弹性权重整合(elastic weightconsolidation,EWC)方法．在提出的模型目标函数中,包括了对新旧任务之间模型参数的惩罚项,从而有效缓解对先前学习的知识中与当下任务相关知识遗忘．弹性权重整合示意图如图３所示:

**2.3 梯度情景记忆 **

LopezＧPaz等人[２０]在２０１７年提出梯度情景记忆模型(gradientepisodicmemory,GEM),该模型能够实现知识正向迁移到先前任务的功能,以及将先前任务学习的知识正向地迁移到当前任务上。

**2.4 分析比较 **

LwF方法仅需要使用新任务的数据,对新任务进行优化,以提高新任务上模型预测的准确性,并保持神经网络对以前任务的预测性能．这种方法类似于联合训练方法,但是该学习方法不使用旧任务的数据和标签数据．实验表明,LwF 方法可以极大地提高算法的分类性能以及计算效率,简化了学习过程,一旦学习了一个新的任务,训练过的数据将不需要再被保存或者回放．然而,这种方法的缺点是学习的性能高度依赖于任务的相关性,并且单个任务的训练时间随着学习任务的个数线性增加．虽然蒸馏方法为多任务学习提供了一个潜在的解决方案,但它需要为每个学习任务持久存储数据．另外需要注意,LwF方法不能被直接运用到强化学习场景中; EWC方法通过使用 FIM 对网络参数进行约束,降低模型对以前所学知识的遗忘程度,此外,该方法在训练过程中不增加任何计算负担,但这是以计算 FIM 为代价的,需存储FIM 的值以及以前学习模型参数的副本;LopezＧPaz 等人[２０]的实验结果表明 GEM 模型,相较于 LwF 和 EWC 方法具有较好的实验效果,但是,该方法在训练时,由于对于每个任务都需要进行情景记忆,因此需要更多的内存空间, 所需的内存是 EWC 用于保存过去信息大小的２倍,与其他方法相比内存开销较大,并且随着学习任务数量的增加,训练成本急剧增加,此外该方法也不能增量地对新的类别进行学习;同时提高性能也将加大计算负担．

**３连续学习的关键问题 **

3.1 灾难性遗忘

灾难性遗忘是连续学习面临的最大挑战．避免灾难性遗忘的问题,也就是说,在不断完成有序到达的新任务学习的同时,也能够在之前学习过的任务中表现得足够好． Venkatesan等人[２１]在２０１７年设计了一种结合生成式模型和知识蒸馏技术的全新采样策略,用其来产生来自过去学习任务概率分布上的 “幻觉数据”,使模型在不访问历史数据的前提下,缓解连续学习过程中的灾难性遗忘问题;文献[２２]从序列贝叶斯学习规则出发,假定数据序列到达时,用前一个任务模型参数的后验概率分布作为新任务模型参数的先验概率分布,为缓解连续学习过程中的灾难性遗忘问题提供一种解决方案;文献[１９]提出的正则化方法在模型参数更新时增加约束,以此在保持已有知识的前提下,实现对新任务的学习,来缓解灾难性遗忘等．

3.2 知识的正向迁移

连续学习过程中的知识正向迁移,即连续学习应该能够在学习新任务的同时,利用以前的任务中学习到的知识来帮助新任务的学习,从而提高学习的效率和质量．文献[２３]实验证明简单的细调可以实现知识的正向迁移;文献[２４]提出保留训练好的模型基类信息编码,可将其知识迁移到模型要学习的新类中;文献[１６]提出的 LwF方法中,使用蒸馏损失来保存基类信息,进而使用保存的基类信息用于新数据的训练;文献[６]通过继承之前任务所学的知识,完成对新任务的学习;LGM 模型是基于学生教师的双重体系结构[２５],教师的角色是保存过去的知识并帮助学生学习未来的知识,该模型通过优化一个增广的 ELBO 目标函数很好地帮助完成师生知识的正向迁移;文献[２６]提出一种符号程序生成(symbolic programsynthesis,SPS)的方法,来实现知识的正向迁移等．

3.3 知识的正向和反向迁移

知识在反向传播过程中的正向迁移,即如何利用当前任务所学到的知识来帮助之前任务的学习是连续学习模型研究的重点之一．在连续学习场景中提出的 LwF模型或者具有更为复杂正则化项的 EWC 模型,虽然可以在一定程度上缓解灾难性遗忘这一问题,然而却无法实现利用当前任务知识来帮助之前任务的学习．Li等人[２７]在２０１９年提出一种连续结构学习框架,当网络进行结构搜索时,l层被选择“重用”,即第l层能够学习到一个与先前的某个任务非常相似的表示, 这要求l层的２个学习任务之间存在语义相关,因此,在第l层上使用正则化项对模型进行相应的约束来帮助之前任务的学习,该模型的提出为解决利用当前任务知识来帮助之前任务的学习提供了思路;LopezＧPaz等人[２０]提出梯度情景记忆模型,实现知识正向迁移到先前任务功能,进而提高模型对之前任务学习的学习能力．

3.4 可伸缩性能力

连续学习方法应该具有可伸缩性或扩展能力, 也就是说,该方法既能完成小规模数据任务的训练, 也能够可伸缩地实现大规模任务上的训练学习,同时需要能够保持足够的能力来应付不断增加的任务． Schwarz等人[２８]在２０１８年提出一种进步和压缩框架(progressandcompressframework,P&C) 的连续学习模型,P&C模型是由知识库(knowledge base)和活动列(activecolumn)两部分组成,这个由快速学习和整合组成的循环结构,使模型不需要结构的增长,也不需要访问和存储以前的任务或数据, 也不需要特定的任务参数来完成对新任务的学习, 此外,由于 P&C模型使用了２个固定大小的列,所以可以扩展到大规模任务上;文献[９]提出一种动态生成记忆模型(dynamicgenerativememory,DGM), 在 DGM 模型中,利用一个生成对抗结构来替代之前模型的记忆模块,来缓解灾难性遗忘问题．其中, 该模型中还结合一个动态网络扩展机制,以确保有足够的模型容量来适应不断传入的新任务;Yoon 等人[２９]在２０１８年提出了一种新型的面向终身连续学习的深度网络结构,称为动态可扩展网络 (dynamicallyexpandablenetwork,DEN),它可以在对一系列任务进行训练的同时动态地确定其网络容量,从而学习任务之间紧密重叠的知识共享结构, 进而有效地对各任务间的共享和私有知识进行学习,不断学习新任务的同时有效地缓解灾难性遗忘．

４连续学习方法研究进展

本节将具体介绍多个代表性的连续学习方法, 本文将把目前的连续学习分为基于正则化方法、基于动态结构方法和基于情景记忆方法三大类,并阐明不同方法之间的关系,还比较了这些方法在减轻灾难性遗忘性能的差异性．图４是对近年来提出的一些流行的连续学习策略韦恩图总结．连续学习中各个子类的分类图如图５~７所示．图中从模型引出到下一模型的箭头,代表了下一模型是在上一模型的基础上发展演变得来．

目前为缓解连续学习过程中的灾难性遗忘问题,主要集中在引入正则化策略、动态结构策略和基于情景记忆策略这３个方向进行研究．正则化方法在模型更新时,通过对权重进行约束,实现在保持已有知识的前提下,完成对新任务的学习,从而缓解灾难性遗忘这一问题,此外,这类方法通常不需要保存任何以前的数据,只需要对每个任务进行一次训练．然而,该类方法克服灾难性遗忘的能力是有限的,例如在类增量学习(classＧincrementallearning,ClassＧ IL)场景下性能不佳,此外,随着任务数目的不断增加,对过去任务进行正则化处理,可能导致特征漂移．动态地改变模型结构以便在不干扰之前任务的学习知识的情况下学习新的任务,该类方法也可以成功地缓解灾难性遗忘这一问题,然而,该类方法不能从任务之间的正向迁移中获益,另外模型的大小随着观察到的任务数量的增加而急剧增长,这使得它在实际问题中往往不可行．基于情景记忆的方法, 通过保存一些以前任务的样例进行记忆回放来缓解对之前所学习知识的遗忘,该类方法在减轻灾难性遗忘方面显示出了巨大优势,然而,计算成本却随着先前任务的数量增加而快速增长,并且该方法需要保存之前样例,不利于数据安全保护．在基于情景记忆的方法中,为替代存储所学任务的样例数据,提出使用深层生成模型来记忆以前见过的数据分布,然而该类方法往往需要从头开始重新训练生成模型, 训练效率低,此外,在每次生成以前任务的新的真实样本时,还极易造成“语义漂移”,且随着时间推移, 模型训练准确性逐渐下降．

６连续学习的应用

作为机器学习领域中的一个极具潜力的研究方向,连续学习方法已经受到学者的极大青睐．随着人工智能及机器学习不断的发展,基于连续学习的方法已经获得了较多应用,例如图像分类、目标识别以及自然语言处理等．以下将对近年来连续学习在各领域的主要应用进行介绍．

6.1 图像分类

Li等人[１６]在２０１７年提出了一种由卷积神经网络组成的无遗忘学习方法,该方法将知识蒸馏与细调方法相结合,利用知识蒸馏的方法来加强与当前学习任务相关的已经学习过的知识,提高分类的准确性;Kim 等人[７０]提出基于 DOS的最大熵正则化增量学习模型(),该模型通过最大熵正则化来减少对不确定迁移知识的优化,以及利用 DOS来通过从新任务中选择性地删除样例减少对旧类的遗忘,以此减少记忆样例中类的不平衡,有效地完成连续学习过程中的图像分类; Smith等人[７１]在２０１９年提出一种新颖的自学习联想记忆框架(selfＧtaughtassociativememory,STAM), 有效解决在连续学习过程中的无监督学习分类问题;Aljundi等人[３７]提出一种基于稀疏编码的正则化方法,实现利用具有固定容量的网络进行有序学习问题,在 CIFAR１００和 MNIST 数据集上进行分类的结果表明,该模型能够有效地提高模型的分类能力;Rostami等人[７２]考虑到基于自编码器的生成模型能够很好地对输入样例进行编码,获得较好的隐特征表示,同时受并行分布式处理学习和互补学习系统理论的启发,提出一种新颖的计算模型,该模型能够将新学习的概念与之前模型学习的概念经过统一编码,进而形成一个统一的嵌入空间表示,实现了利用之前学习的概念知识来有效地帮助只有少量标签样例的新领域知识的学习,从而完成在连续学习背景下的样例分类．

6.2 目标识别

****Siam 等人[７３]提出一种新颖的教师学生自适应框架,在无需人工标注的情况下,完成人机交互)背景下的视频目标对象分割(videoobjectsegmentation);Parisi等人[７]提出了一种适用于终身学习场景的双记忆自组织体系结构,该模型结构主要包括一个深度卷积特征提取模块和２个分层排列的递归自组织网络,进而实现在终身学习场景下的视频序列中的目标对象的识别;Tessler等人[７４]提出一种新颖的分层深度强化学习网络(hierarchicaldeepreinforcementlearning network,HＧDRLN)框架,该模型在 Minecraft游戏场景中,通过重用在之前任务中学习到的知识,进而完成对未来任务场景的目标对象学习,提高效率,同时,该模型的实验结果也展示了在不需要额外学习的情况下在相关 Minecraft任务之间迁移知识的潜力;Michiel等人[１０]将当前的基于任务标识已知的序列学习方法推向了在线无任务标识的连续学习场景中,首先,假设有一个无限输入的数据流,其中该数据流中包含现实场景中常见的逐渐或者突然的变化．文献[１０]中提出一种基于重要权重正则化的连续学习方法,与传统的任务标识已知场景中不同,在该场景中,该模型需要有效地检测何时、如何以及在哪些数据上执行重要性权重更新,进而有效地在无任务标识场景下进行在线连续学习．该文中在监督学习和自监督学习过程中都成功地验证了该方法的有效性．其中,具体而言,相较于基准学习方法,在电视剧人脸识别和机器人碰撞等具体应用中,该方法的稳定性和学习性能都有所提高．Tahir等人[７５]考虑到当下最先进的有关食物识别的深度学习模型不能实现数据的增量学习,经常在增量学习场景中出现灾难性遗忘问题．因此,提出一种新的自适应简化类增量核极值学习机方法(adaptivereducedclassincremental kernelextremelearning machine,ARCIKELM), 进而完成目标食物对象的识别,其中在多个标准的食物数据集的最终分类准确性证明了该模型可以有效地进行增量学习．

6.3 自然语言处理

d􀆳Autume等人[７６]介绍了一种连续学习背景下的自然语言学习模型,该模型实现了对在线文本数据的有效学习．在文献[７６]中介绍了一种基于稀疏经验回放的方法有效地防止灾难性遗忘,具体而言,对于每１００００个新的样本随机均匀选择１００个样本在固定的时间间隔进行稀疏经验回放,实验表明,该模型在文本分类和问答系统等自然语言领域可以实现较好的应用．Li等人[７７]考虑到现有的方法大多集中在对输入和输出大小固定的标签预测连续学习任务上,因此,提出了一个新的连续学习场景,它处理自然语言学习中常见的序列到序列的学习任务．实验结果表明,该方法比现有方法有明显的改进,它能有效地促进知识正向迁移,防止灾难性遗忘．Kruszewski 等人[７８]提出一种基于多语言和多领域背景下的语言建模基准,该基准可以将任何明确的训练样例划分为不同的任务．与此同时,提出一种基于产品专家 (productofexperts,PoE)的多语言连续学习方法, Kruszewski等人的实验结果证明,在进行多语言连续学习时,该模型可以有效地缓解灾难性遗忘．Hu 等人[７９]对个性化在线语言学习问题 (personalized onlinelanguagelearning,POLL)进行研究,涉及到适应个性化的语言模型以适应随着时间发展的用户群体．为了有效地对 POLL问题进行研究,文献[７９] 的作者收集了大量的微博帖子作为训练数据集,进而对近年来流行的连续学习算法进行了严格评估, 并在此基础上提出一种简单的连续梯度下降算法 (continualgradientdescent,ConGraD),实验结果表明,该算法在 Firehose数据集和早期基准测试数据集的实验结果优于之前的连续学习方法．

**７未来的研究方向 **

作为机器学习领域中的一个新兴方向,连续学习近几年受到研究者们的极大关注,目前来看,连续学习在未来的研究中有１０个潜在的方向: １) 基于经验回放(experiencereplay)的模型相较于其他连续学习模型有较好的性能,然而,容量的饱和是该类模型中所面临的重要挑战,因此如何在保持原有知识的同时,不断提高模型的能力是未来重要的研究方向． ２)对于任务不可知场景下的连续学习算法尚需进一步研究．目前,大多连续学习算法要求在任务边界(taskboundaries)已知的场景中来进行训练和预测,即当需要学习一个新的任务时,模型需要被告知有新的学习任务,例如,改变损失函数中的参数等,以便系统能够采取某些行动．然而,在任务之间没有明显边界,即任务的转变是逐渐的或者连续的, 这些模型将不再适用．然而,在实际应用中,往往需面对的是任务边界不可知场景学习问题．文献[９]从贝叶斯的角度提出一种贝叶斯梯度下降算法(Bayes gradientdesent,BGD),对没有明确定义的任务边界的连续学习问题提供一种解决思路,然而,基于此场景的连续学习算法仍相对缺乏,尚需进一步研究． ３)利用多模态信息．现有的连续学习方法通常使用来自单一模态(如图像或文本)的知识进行建模,然而,虽然当下训练集有一些当前模态的样例, 但是,样例可能还存在另一个模态．因此,来自多模态的知识可以为连续学习提供较为丰富的样例信息,进而提高模型的建模能力．因此如何有效地利用这些多模态信息也是未来研究的重要方向． ４)在未来可以对当下连续学习模型应用的灵活性进行进一步扩展研究,例如多感知领域的扩展．文献[８０]可以从视听流中不断学习任务的特征,使得连续学习的方法向更加广泛的应用迈进一步．因此,可以通过将连续学习方法部署在具体的代理中, 通过与环境的主动交互,在持续的时间内可以增量地获取和提取知识,以此来更好地完成对对象的识别等任务． ５)数据集太小也是连续学习过程所面临的挑战之一．例如,目前存在的iCubＧT 和 CORe５０数据集,只包含几十个常见的家庭对象类,缺乏大规模和多样性数据集．因此,创建一个更大的和更多样化的数据集,即可以包括数百个或数千个类,也可以包括不同类型的识别,如人脸、场景以及活动等,对未来的研究工作是至关重要的． ６)在实际分类问题中,数据的不平衡时常发生,易于导致数据的错误分类,因此如何从不平衡的数据集中进行正确分类,也是未来连续学习研究的一个重要方向． ７)在线学习．当前的连续学习方法多集中于对每个单独的任务进行离线训练,然而,在实际应用中数据往往以数据流的形式存在[８１]．因此,如何对连续的数据流进行学习是未来的一个重要的研究方向． ８)正向迁移．在连续学习方法中,正向迁移即知识的正向迁移能力,也就是对新任务进行学习时, 如何有效地利用之前所学习的知识来有效地加快对当前任务的学习．近年来,元学习方法的出现,为进一步提高知识的正向迁移提供了前景．因此,如何有效地利用元学习技术来尽可能地加快对当前任务的学习是未来的一个重要的研究方向． ９)权衡模型的稳定性与可塑性．模型的可塑性,即模型对学习新知识的能力．模型的稳定性,即模型对已经学习知识的保留能力．在连续学习过程中,如何有效地对模型的稳定性和可塑性进行权衡是一个值得研究的问题． １０)应用领域扩展．大多实际应用场景都涉及连续学习的问题,计算机视觉中图像分类是连续学习最常用的实验平台之一．连续学习最近在许多其他应用中也引起了广泛关注,如机器人技术、自然语言处理和视频信号处理．总之,连续学习还有很多值得探索的领域和应用．