摘要

与批量学习不同的是,在批量学习中所有的训练数据都是一次性可用的,而持续学习代表了一组方法,这些方法可以积累知识,并使用序列可用的数据连续学习。与人类的学习过程一样,不断学习具有学习、融合和积累不同时间步的新知识的能力,被认为具有很高的现实意义。因此,持续学习在各种人工智能任务中得到了研究。本文综述了计算机视觉中持续学习的最新进展。特别地,这些作品是根据它们的代表性技术进行分组的,包括正则化、知识蒸馏、记忆、生成重放、参数隔离以及上述技术的组合。针对每一类技术,分别介绍了其特点及其在计算机视觉中的应用。在概述的最后,讨论了几个子领域,在这些子领域中,持续的知识积累可能会有帮助,而持续学习还没有得到很好的研究。

https://www.zhuanzhi.ai/paper/a13ad85605ab12d401a6b2e74bc01d8a

引言

人类的学习是一个渐进的过程。在人类的一生中,人类不断地接受和学习新知识。新知识在发挥自身积累作用的同时,也对原有知识进行补充和修正。相比之下,传统的机器学习和深度学习范式通常区分知识训练和知识推理的过程,模型需要在有限的时间内在预先准备好的数据集上完成训练,然后使用这些数据集进行推理。随着相机和手机的广泛普及,每天都有大量新的图片和视频被捕捉和分享。这就产生了新的需求,特别是在计算机视觉领域,模型在推理过程中要连续不断地学习和更新自己,因为从头开始训练模型以适应每天新生成的数据是非常耗时和低效的。

由于神经网络与人脑的结构不同,神经网络训练不易从原来的批量学习模式转变为新的连续学习模式。特别是存在两个主要问题。首先,按照序列学习多个类别的数据容易导致灾难性遗忘的问题[1,2]。这意味着,在从新类别的数据更新模型参数后,模型在先前学习类别上的性能通常会急剧下降。其次,当按顺序从同一类别的新数据中学习时,也会导致概念漂移问题[3,4,5],因为新数据可能会以不可预见的方式改变该类别的数据分布[6]。因此,持续学习的总体任务是解决稳定性-可塑性困境[7,8],这就要求神经网络在保持学习新知识的能力的同时,防止遗忘之前学习过的知识。

近年来,在计算机视觉的各个子领域中提出了越来越多的持续学习方法,如图1所示。此外,2020年和2021年还举办了若干与计算机视觉中的持续学习有关的比赛[9,10]。因此,本文综述了计算机视觉中持续学习的最新进展。我们将这一概述的主要贡献总结如下。(1)系统地综述了计算机视觉中持续学习的最新进展。(2)介绍了用于不同计算机视觉任务的各种持续学习技术,包括正则化、知识提取、基于记忆、生成重放和参数隔离。(3)讨论了计算机视觉中持续学习可能有所帮助但仍未得到充分研究的子领域。

本文的其余部分组织如下。第二节给出了持续学习的定义。第3节介绍了这一领域常用的评估指标。第4节讨论了各种类型的持续学习方法及其在计算机视觉中的应用。在第5节中讨论了计算机视觉中没有很好地利用持续学习的子领域。最后,第六部分对全文进行总结。

成为VIP会员查看完整内容
0
32

相关内容

计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取‘信息’的人工智能系统。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等

摘要

作为一种比传统机器学习方法更有效的训练框架,元学习获得了广泛的欢迎。然而,在多模态任务等复杂任务分布中,其泛化能力尚未得到深入研究。近年来,基于多模态的元学习出现了一些研究。本综述从方法论和应用方面提供了基于多模态的元学习景观的全面概述。我们首先对元学习和多模态的定义进行了形式化的界定,并提出了这一新兴领域的研究挑战,如何丰富少样本或零样本情况下的输入,以及如何将模型泛化到新的任务中。然后我们提出了一个新的分类系统,系统地讨论了结合多模态任务的典型元学习算法。我们对相关论文的贡献进行了调研,并对其进行了分类总结。最后,提出了该领域的研究方向。

https://www.zhuanzhi.ai/paper/3cf8fdad89ed44f7ea803ce6e0ab21b5

引言

深度学习方法在语音、语言和视觉领域取得了显著进展[1,2,3]。然而,这些方法的性能严重依赖于大量标记数据的可用性,而在大多数应用中,获取这些数据可能不切实际或成本高昂。仅使用有限的标记数据往往会导致过拟合问题,导致泛化到新数据[4]或完全不同的分布的不确定性。另一方面,人类学习过程中使用的“学会学习”机制[5]使我们能够从很少的样本[6]中快速学习新的概念。已有证据表明,通过结合先验知识和情境,人类可以在有限情景下获得多个先验任务的经验,在有限情景下,习得的抽象经验被一般化,以提高未来对新概念的学习表现。受此启发,提出了一种名为元学习(meta-learning)的计算范式[7,8],用来模拟人类学习广义任务经验的能力,旨在让机器从类似任务中获取先验知识,并快速适应新任务。通过在动态选择中提取跨领域任务目标,元学习过程比传统机器学习模型更具数据效率[9,10]。

由于元学习能够泛化到新的任务,我们的目的是了解元学习如何发挥作用,当任务更复杂时,例如,数据源不再是单模态的,或原始模态中的数据是有限的。最近的研究集中在将元学习框架应用于复杂任务的分配上[11,12],但仅限于单一的模态。特别是,在多个应用[7]、学习优化步骤[13]的先验知识、数据嵌入[14,15]或模型结构[16]的多任务和单任务场景中,元学习已经被证明是成功的。然而,在异构任务模态下,如何巧妙地利用元学习给研究人员带来了独特的挑战。要在额外模态的帮助下从这些任务中学习新概念,示例应该以成对或多种方式提供,其中每个示例包含同一概念的两个或多个项目,但在不同的模态。

首先在图像分类的零样本学习(ZSL) /广义零样本学习(GSZL)领域探讨了不同模态的异质特征。语义模式被认为在模型训练中提供强大的先验知识和辅助视觉模式。为了更好地将知识从可见的类迁移到不可见的类,基于元的算法被广泛引入来捕获配对模态之间的属性关系。然而,训练过程大多将一个模态视为主要模态,并通过添加另一个模态来利用额外的信息。它不涉及在真实的复杂情景中对多种模态的分析,如未配对的模态、缺失的模态以及模态之间的关联。因此,一些研究进一步将元学习方法应用于由其他模态构成的任务。具体来说,当不同任务的模态来自不同的数据分布,或者不同任务的模态被遗漏或不平衡时,通过充分利用元学习背景下的多模态数据,可以将不同模式的优势整合到问题中,从而提高绩效。另一方面,元学习本身的训练框架有助于提高原多模态学习者在新任务中的泛化能力。虽然对这两个概念的跨学科研究听起来很有前景,但目前的研究大多将元学习算法和多模态学习算法分开进行总结,导致多模态与元学习结合的研究存在差距。

最后,我们希望在本次综述中对基于多模态的元学习算法进行系统而全面的研究。我们旨在为不同的方法提供直观的解释,并有助于:

识别将元学习算法应用于多模态任务的挑战; 提出一个新的分类,并为每个类别提供深刻的分析; 总结解决不同挑战的具体贡献,包括其方法和与其他方法的区别; 强调当前的研究趋势和未来可能的方向。

本综述的其余部分组织如下。在第二节中,我们首先对元学习和多模态的定义进行了形式化界定,然后给出了基于多模态的元学习挑战的总体范式。然后我们在第3节提出了一个基于元学习算法可以学习的先验知识的新分类。我们分别在第4节、第5节和第6节对如何使原始元学习方法适应多模态数据的相关研究进行了考察,在第7节对这些工作进行了总结。最后,我们总结了目前的研究趋势在第8节和可能的方向,未来的工作在第9节。

成为VIP会员查看完整内容
0
35

图是连接数据网络结构的一种常用表示形式。图数据可以在广泛的应用领域中找到,如社会系统、生态系统、生物网络、知识图谱和信息系统。随着人工智能技术的不断渗透发展,图学习(即对图进行机器学习)越来越受到研究者和实践者的关注。图学习对许多任务都非常有效,如分类,链接预测和匹配。图学习方法通常是利用机器学习算法提取图的相关特征。在这个综述中,我们提出了一个关于图学习最全面的概述。特别关注四类现有的图学习方法,包括图信号处理、矩阵分解、随机游走和深度学习。分别回顾了这些类别下的主要模型和算法。我们研究了诸如文本、图像、科学、知识图谱和组合优化等领域的图学习应用。此外,我们还讨论了该领域几个有前景的研究方向。

真实的智能系统通常依赖于机器学习算法处理各种类型的数据。尽管图数据无处不在,但由于其固有的复杂性,给机器学习带来了前所未有的挑战。与文本、音频和图像不同,图数据嵌入在一个不规则的领域,使得现有机器学习算法的一些基本操作不适用。许多图学习模型和算法已经被开发出来解决这些挑战。本文系统地综述了目前最先进的图学习方法及其潜在的应用。这篇论文有多种用途。首先,它作为不同领域(如社会计算、信息检索、计算机视觉、生物信息学、经济学和电子商务)的研究人员和从业者提供图学习的快速参考。其次,它提供了对该领域的开放研究领域的见解。第三,它的目的是激发新的研究思路和更多的兴趣在图学习。

图,又称网络,可以从现实世界中丰富的实体之间的各种关系中提取。一些常见的图表已经被广泛用于表达不同的关系,如社会网络、生物网络、专利网络、交通网络、引文网络和通信网络[1]-[3]。图通常由两个集合定义,即顶点集和边集。顶点表示图形中的实体,而边表示这些实体之间的关系。由于图学习在数据挖掘、知识发现等领域的广泛应用,引起了人们的广泛关注。由于图利用了顶点[4],[5]之间的本质和相关关系,在捕获复杂关系方面,图学习方法变得越来越流行。例如,在微博网络中,通过检测信息级联,可以跟踪谣言的传播轨迹。在生物网络中,通过推测蛋白质的相互作用可以发现治疗疑难疾病的新方法。在交通网络中,通过分析不同时间戳[6]的共现现象,可以预测人类的移动模式。对这些网络的有效分析很大程度上取决于网络的表示方式。

一般来说,图学习是指对图进行机器学习。图学习方法将图的特征映射到嵌入空间中具有相同维数的特征向量。图学习模型或算法直接将图数据转换为图学习体系结构的输出,而不将图投影到低维空间。由于深度学习技术可以将图数据编码并表示为向量,所以大多数图学习方法都是基于或从深度学习技术推广而来的。图学习的输出向量在连续空间中。图学习的目标是提取图的期望特征。因此,图的表示可以很容易地用于下游任务,如节点分类和链接预测,而无需显式的嵌入过程。因此,图学习是一种更强大、更有意义的图分析技术。

在这篇综述论文中,我们试图以全面的方式检验图机器学习方法。如图1所示,我们关注现有以下四类方法:基于图信号处理(GSP)的方法、基于矩阵分解的方法、基于随机游走的方法和基于深度学习的方法。大致来说,GSP处理图的采样和恢复,并从数据中学习拓扑结构。矩阵分解可分为图拉普拉斯矩阵分解和顶点接近矩阵分解。基于随机游动的方法包括基于结构的随机游动、基于结构和节点信息的随机游动、异构网络中的随机游动和时变网络中的随机游动。基于深度学习的方法包括图卷积网络、图注意力网络、图自编码器、图生成网络和图时空网络。基本上,这些方法/技术的模型架构是不同的。本文对目前最先进的图学习技术进行了广泛的回顾。

传统上,研究人员采用邻接矩阵来表示一个图,它只能捕捉相邻两个顶点之间的关系。然而,许多复杂和不规则的结构不能被这种简单的表示捕获。当我们分析大规模网络时,传统的方法在计算上是昂贵的,并且很难在现实应用中实现。因此,有效地表示这些网络是解决[4]的首要问题。近年来提出的网络表示学习(NRL)可以学习低维表示[7]-[9]的网络顶点潜在特征。当新的表示被学习后,可以使用以前的机器学习方法来分析图数据,并发现数据中隐藏的关系。

当复杂网络被嵌入到一个潜在的、低维的空间中时,结构信息和顶点属性可以被保留[4]。因此,网络的顶点可以用低维向量表示。在以往的机器学习方法中,这些向量可以看作是输入的特征。图学习方法为新的表示空间中的图分析铺平了道路,许多图分析任务,如链接预测、推荐和分类,都可以有效地解决[10],[11]。网络的图形化表现方式揭示了社会生活的各个方面,如交流模式、社区结构和信息扩散[12],[13]。根据顶点、边和子图的属性,可以将图学习任务分为基于顶点、基于边和基于子图三类。图中顶点之间的关系可以用于分类、风险识别、聚类和社区检测[14]。通过判断图中两个顶点之间的边的存在,我们可以进行推荐和知识推理。基于子图[15]的分类,该图可用于聚合物分类、三维可视化分类等。对于GSP,设计合适的图形采样方法以保持原始图形的特征,从而有效地恢复原始图形[16]具有重要意义。在存在不完整数据[17]的情况下,可以使用图恢复方法构造原始图。然后利用图学习从图数据中学习拓扑结构。综上所述,利用图学习可以解决传统的图分析方法[18]难以解决的以下挑战。

成为VIP会员查看完整内容
0
78

人工神经网络在解决特定刚性任务的分类问题时,通过不同训练阶段的广义学习行为获取知识。由此产生的网络类似于一个静态的知识实体,努力扩展这种知识而不针对最初的任务,从而导致灾难性的遗忘。

持续学习将这种范式转变为可以在不同任务上持续积累知识的网络,而不需要从头开始再训练。我们关注任务增量分类,即任务按顺序到达,并由清晰的边界划分。我们的主要贡献包括:

(1) 对持续学习技术的分类和广泛的概述;

(2) 一个持续学习器稳定性-可塑性权衡的新框架;

(3) 对11种最先进的持续学习方法和4条基准进行综合实验比较。

考虑到微型Imagenet和大规模不平衡的非自然主义者以及一系列识别数据集,我们以经验的方式在三个基准上仔细检查方法的优缺点。我们研究了模型容量、权重衰减和衰减正则化的影响,以及任务呈现的顺序,并从所需内存、计算时间和存储空间等方面定性比较了各种方法。

https://www.zhuanzhi.ai/paper/c90f25024b2c2364ce63299b4dc4677f

引言

近年来,据报道,机器学习模型在个人任务上表现出甚至超过人类水平的表现,如雅达利游戏[1]或物体识别[2]。虽然这些结果令人印象深刻,但它们是在静态模型无法适应其行为的情况下获得的。因此,这需要在每次有新数据可用时重新启动训练过程。在我们的动态世界中,这种做法对于数据流来说很快就变得难以处理,或者可能由于存储限制或隐私问题而只能暂时可用。这就需要不断适应和不断学习的系统。人类的认知就是这样一个系统的例证,它具有顺序学习概念的倾向。通过观察例子来重新审视旧的概念可能会发生,但对保存这些知识来说并不是必要的,而且尽管人类可能会逐渐忘记旧的信息,但完全丢失以前的知识很少被证明是[3]。相比之下,人工神经网络则不能以这种方式学习:在学习新概念时,它们会遭遇对旧概念的灾难性遗忘。为了规避这一问题,人工神经网络的研究主要集中在静态任务上,通常通过重组数据来确保i.i.d.条件,并通过在多个时期重新访问训练数据来大幅提高性能。

持续学习研究从无穷无尽的数据流中学习的问题,其目标是逐步扩展已获得的知识,并将其用于未来[4]的学习。数据可以来自于变化的输入域(例如,不同的成像条件),也可以与不同的任务相关联(例如,细粒度的分类问题)。持续学习也被称为终身学习[18]0,[18]1,[18]2,[18]3,[18]5,[18]4,顺序学习[10],[11],[12]或增量学习[13],[14],[15],[16],[17],[18],[19]。主要的标准是学习过程的顺序性质,只有一小部分输入数据来自一个或几个任务,一次可用。主要的挑战是在不发生灾难性遗忘的情况下进行学习:当添加新的任务或域时,之前学习的任务或域的性能不会随着时间的推移而显著下降。这是神经网络中一个更普遍的问题[20]的直接结果,即稳定性-可塑性困境,可塑性指的是整合新知识的能力,以及在编码时保持原有知识的稳定性。这是一个具有挑战性的问题,不断学习的进展使得现实世界的应用开始出现[21]、[22]、[23]。

为了集中注意力,我们用两种方式限制了我们的研究范围。首先,我们只考虑任务增量设置,其中数据按顺序分批到达,一个批对应一个任务,例如要学习的一组新类别。换句话说,我们假设对于一个给定的任务,所有的数据都可以同时用于离线训练。这使得对所有训练数据进行多个时期的学习成为可能,反复洗刷以确保i.i.d.的条件。重要的是,无法访问以前或将来任务的数据。在此设置中优化新任务将导致灾难性的遗忘,旧任务的性能将显著下降,除非采取特殊措施。这些措施在不同情况下的有效性,正是本文所要探讨的。此外,任务增量学习将范围限制为一个多头配置,每个任务都有一个独占的输出层或头。这与所有任务共享一个头的更有挑战性的类增量设置相反。这在学习中引入了额外的干扰,增加了可供选择的输出节点的数量。相反,我们假设已知一个给定的样本属于哪个任务。

其次,我们只关注分类问题,因为分类可以说是人工神经网络最既定的任务之一,使用相对简单、标准和易于理解的网络体系结构具有良好的性能。第2节对设置进行了更详细的描述,第7节讨论了处理更一般设置的开放问题。

成为VIP会员查看完整内容
0
49

深度学习技术的发展使得神经机器翻译(NMT)模型在充分的训练数据和训练时间下变得极为强大。

然而,系统在翻译具有独特风格或词汇的新领域的文本时会遇到困难。对具有代表性的训练语料库进行调优可以实现良好的域内翻译,但这种以数据为中心的方法可能会导致对新数据的过度拟合和对之前学习过的行为的“灾难性遗忘”。

我们将重点放在更为鲁棒的领域适应方法上,特别是在一个系统可能需要翻译多个领域的句子的情况下。我们将技术分为数据选择技术、模型结构技术、参数自适应技术和推理技术。

最后,我们强调了领域适应和多领域适应技术对其他学科的研究的好处。

https://www.zhuanzhi.ai/paper/ded38c3d1df3a669bbf8d9c9bad96a5c

成为VIP会员查看完整内容
0
12

深度学习在大量领域取得优异成果,但仍然存在着鲁棒性和泛化性较差、难以学习和适应未观测任务、极其依赖大规模数据等问题.近两年元学习在深度学习上的发展,为解决上述问题提供了新的视野.元学习是一种模仿生物利用先前已有的知识,从而快速学习新的未见事物能力的一种学习定式.元学习的目标是利用已学习的信息,快速适应未学习的新任务.这与实现通用人工智能的目标相契合,对元学习问题的研究也是提高模型的鲁棒性和泛化性的关键.近年来随着深度学习的发展,元学习再度成为热点,目前元学习的研究百家争鸣、百花齐放. 本文从元学习的起源出发,系统地介绍元学习的发展历史,包括元学习的由来和原始定义,然后给出当前元学习的通用定义,同时总结当前元学习一些不同方向的研究成果,包括基于度量的元学习方法、基于强泛化新的初始化参数的元学习方法、基于梯度优化器的元学习方法、基于外部记忆单元的元学方法、基于数据增强的元学方法等. 总结其共有的思想和存在的问题,对元学习的研究思想进行分类,并叙述不同方法和其相应的算法.最后论述了元学习研究中常用数据集和评判标准,并从元学习的自适应性、进化性、可解释性、连续性、可扩展性展望其未来发展趋势.

引言

随着计算设备并行计算性能的大幅度 进步,以及近些年深度神经网络在各个领域 不断取得重大突破,由深度神经网络模型衍 生而来的多个机器学习新领域也逐渐成型, 如强化学习、深度强化学习[1] [2] 、深度监督 学习等。在大量训练数据的加持下,深度神 经网络技术已经在机器翻译、机器人控制、 大数据分析、智能推送、模式识别等方面取 得巨大成果[3] [4] [5] 。

实际上在机器学习与其他行业结合的 过程中,并不是所有领域都拥有足够可以让 深度神经网络微调参数至收敛的海量数据, 相当多领域要求快速反应、快速学习,如新 兴领域之一的仿人机器人领域,其面临的现 实环境往往极为复杂且难以预测,若按照传 统机器学习方法进行训练则需要模拟所有 可能遇到的环境,工作量极大同时训练成本 极高,严重制约了机器学习在其他领域的扩 展,因此在深度学习取得大量成果后,具有 自我学习能力与强泛化性能的元学习便成 为通用人工智能的关键。

元学习(Meta-learning)提出的目的是 针对传统神经网络模型泛化性能不足、对新 种类任务适应性较差的特点。在元学习介绍 中往往将元学习的训练和测试过程类比为 人类在掌握一些基础技能后可以快速学习并适应新任务,如儿童阶段的人类也可以快 速通过一张某动物照片学会认出该动物,即 机 器 学 习 中 的 小 样 本 学 习 ( Few-shot Learning)[6] [7] ,甚至不需要图像,仅凭描 述就可学会认识新种类,对应机器学习领域 中的(Zero-shot Learning)[8] ,而不需要大 量该动物的不同照片。人类在幼儿阶段掌握 的对世界的大量基础知识和对行为模式的 认知基础便对应元学习中的“元”概念,即一 个泛化性能强的初始网络加上对新任务的 快速适应学习能力,元学习的远期目标为通 过类似人类的学习能力实现强人工智能,当 前阶段体现在对新数据集的快速适应带来 较好的准确度,因此目前元学习主要表现为 提高泛化性能、获取好的初始参数、通过少 量计算和新训练数据即可在模型上实现和 海量训练数据一样的识别准确度,近些年基 于元学习,在小样本学习领域做出了大量研 究[9] [10] [11] [12] [13] [14] [15] [16] [17] ,同时为模拟 人类认知,在 Zero-shot Learning 方向也进行 了大量探索[18] [19] [20] [21] [22] 。

在机器学习盛行之前,就已产生了元学习的相关概念。当时的元学习还停留在认知 教育科学相关领域,用于探讨更加合理的教 学方法。Gene V. Glass 在 1976 年首次提出 了“元分析”这一概念[23] ,对大量的分析结 果进行统计分析,这是一种二次分析办法。G Powell 使用“元分析”的方法对词汇记忆 进行了研究[24] ,指出“强制”和“诱导”意象有 助于词汇记忆。Donald B.Maudsley 在 1979 年首次提出了“元学习”这一概念,将其描述 为“学习者意识到并越来越多地控制他们已 经内化的感知、探究、学习和成长习惯的过 程”,Maudsley 将元学习做为在假设、结构、 变化、过程和发展这 5 个方面下的综合,并 阐述了相关基本原则[25] 。BIGGS J.B 将元学 习描述为“意识到并控制自己的学习的状 态” [26] ,即学习者对学习环境的感知。P Adey 将元学习的策略用在物理教学上[27] , Vanlehn K 探讨了辅导教学中的元学习方法 [28] 。从元分析到元学习,研究人员主要关 注人是如何意识和控制自己学习的。一个具 有高度元学习观念的学生,能够从自己采用 的学习方法所产生的结果中获得反馈信息,进一步评价自己的学习方法,更好地达到学 习目标[29] 。随后元学习这一概念慢慢渗透 到机器学习领域。P.Chan 提出的元学习是一 种整合多种学习过程的技术,利用元学习的 策略组合多个不同算法设计的分类器,其整 体的准确度优于任何个别的学习算法[30] [31] [32] 。HilanBensusan 提出了基于元学习的决 策树框架[33] 。Vilalta R 则认为元学习是通 过积累元知识动态地通过经验来改善偏倚 的一种学习算法[34] 。

Meta-Learning 目前还没有确切的定义, 一般认为一个元学习系统需结合三个要求:系统必须包含一个学习子系统;利用以前学 习中提取的元知识来获得经验,这些元知识 来自单个数据集或不同领域;动态选择学习偏差。

元学习的目的就是为了设计一种机器学习模型,这种模型有类似上面提到的人的 学习特性,即使用少量样本数据,快速学习 新的概念或技能。经过不同任务的训练后, 元学习模型能很好的适应和泛化到一个新任务,也就学会了“Learning to learn”。

成为VIP会员查看完整内容
0
108

持续学习(CL)是一种特殊的机器学习范式,它的数据分布和学习目标会随着时间的推移而改变,或者所有的训练数据和客观标准都不会立即可用。学习过程的演变是以一系列学习经验为模型的,其中的目标是能够在学习过程中一直学习新的技能,而不会忘记之前学过的知识。CL可以看作是一种在线学习,需要进行知识融合,以便从按顺序及时呈现的数据流中学习。在学习过程中,不断学习的目的还在于优化记忆、计算能力和速度。机器学习的一个重要挑战不是必须找到在现实世界中有效的解决方案,而是找到可以在现实世界中学习的稳定算法。因此,理想的方法是在嵌入的平台中处理现实世界:自治的代理。持续学习在自主代理或机器人中是有效的,它们将通过时间自主学习外部世界,并逐步发展一套复杂的技能和知识。机器人必须学会通过连续的观察来适应环境并与之互动。一些最近的方法旨在解决机器人持续学习的问题,但最近关于持续学习的论文只是在模拟或静态数据集的实验方法。不幸的是,对这些算法的评估并不能说明它们的解决方案是否有助于在机器人技术的背景下持续学习。这篇论文的目的是回顾持续学习的现有状态,总结现有的基准和度量标准,并提出一个框架来展示和评估机器人技术和非机器人技术的方法,使这两个领域之间的转换更加容易。我们在机器人技术的背景下强调持续学习,以建立各领域之间的联系并规范方法。

https://www.sciencedirect.com/science/article/pii/S1566253519307377#sec0001

概要:

机器学习(ML)方法通常从平稳数据分布中随机采样的数据流中学习。这通常是有效学习的必要条件。然而,在现实世界中,这种设置相当少见。持续学习(CL)[128]汇集了解决当数据分布随时间变化时,以及在永无止境的数据流中需要考虑的知识融合的学习问题的工作和方法。因此,CL是处理灾难性遗忘[47]的范式[102]。

为了方便起见,我们可以根据经验将数据流分割成几个子段,这些子段有时间边界,我们称之为任务。然后我们可以观察在学习一项新任务时所学到或忘记了什么。即使对任务没有强制约束,任务通常指的是一段特定的时间,其中数据分布可能(但不一定)是平稳的,并且目标函数是常量。就学习目标而言,任务可以是相互独立的,也可以是相互关联的,并且取决于设置。

持续学习的一个解决方案是保存所有数据,打乱它,然后回到传统的机器学习设置。不幸的是,在这种情况下,这并不总是可能的,也不是最佳的。这里有几个例子,其中持续学习是必要的:

你有一个训练过的模型,你想用新的数据更新它,但是原来的训练数据被丢弃了,或者你没有权利再访问它。

你想在一系列任务上训练一个模型,但你不能存储你的所有数据,或者你没有计算能力从所有数据中重新训练模型(例如,在嵌入式平台中)。

您希望智能代理学习多种策略,但您不知道学习目标何时发生变化,如何变化。

您希望从持续的数据流中学习,这些数据可能会随着时间而变化,但您不知道如何变化,何时变化。

为了处理这些设置,表示应该通过在线方式学习[87]。随着数据被丢弃并且生命周期有限,忘记不重要的东西而保留对未来有意义的东西的能力是持续学习的主要目标和重点。

从机器人技术的角度来看,CL是发展机器人技术的机器学习答案[93]。发展机器人技术是一种交叉学科的方法,用于自主设计人工主体的行为和认知能力,直接从儿童自然认知系统中观察到的发展原则和机制中获得灵感。

在这种情况下,CL必须包含一个学习累积技能的过程,并能逐步提高所处理任务的复杂性和多样性。

自主主体在这样的环境中以开放式的[36]方式学习,但也以持续的方式学习。这种发展方法的关键组成部分包括学习自主产生目标和探索环境的能力,开发内在动机[113]和好奇心的计算模型[112]。

我们提出了一个框架来连接持续学习和机器人技术。这个框架也为持续学习提供了机会,以一个有框架的数学公式以清晰和系统的方式呈现方法。

首先,我们介绍了持续学习的背景和历史。其次,我们的目标是在不断学习的基础上理清概念汇。第三,我们将介绍我们的框架作为一种标准的CL方法,以帮助在不同的持续学习领域之间进行转换,特别是对于机器人技术。第四,我们提供了一组度量标准,它将有助于更好地理解每一类方法的质量和缺点。最后,我们提出了持续学习机器人技术的细节和机会,这使得CL变得如此重要。

对于机器人技术和非机器人技术领域,我们保持了定义、框架、策略和评估的一般性。尽管如此,最后一节,机器人持续学习(第6节)受益于前几节的内容,以呈现机器人领域持续学习的特殊性。

成为VIP会员查看完整内容
0
21

自监督学习由于能够避免标注大规模数据集的成本而受到欢迎。它能够采用自定义的伪标签作为监督,并将学习到的表示用于几个下游任务。具体来说,对比学习最近已成为计算机视觉、自然语言处理(NLP)等领域的自主监督学习方法的主要组成部分。它的目的是将同一个样本的增广版本嵌入到一起,同时试图将不同样本中的嵌入推开。这篇论文提供了一个广泛的自我监督的方法综述,遵循对比的方法。本研究解释了在对比学习设置中常用的借口任务,以及到目前为止提出的不同架构。接下来,我们将对图像分类、目标检测和动作识别等多个下游任务的不同方法进行性能比较。最后,我们总结了目前方法的局限性和需要进一步的技术和未来方向取得实质性进展。

https://arxiv.org/abs/2011.00362

概述:

随着深度学习技术的发展,它已成为目前大多数智能系统的核心组件之一。深度神经网络(DNNs)能够从现有的大量数据中学习丰富的模式,这使得它在大多数计算机视觉(CV)任务(如图像分类、目标检测、图像分割、动作识别)以及自然语言处理(NLP)任务(如句子分类、语言模型、机器翻译等)中成为一种引人注目的方法。然而,由于手工标注数百万个数据样本的工作量很大,从标记数据中学习特征的监督方法已经几乎达到了饱和。这是因为大多数现代计算机视觉系统(受监督的)都试图通过查找大型数据集中数据点及其各自注释之间的模式来学习某种形式的图像表示。像GRAD-CAM[1]这样的工作提出了一种技术,可以为模型所做的决策提供可视化的解释,从而使决策更加透明和可解释。

传统的监督学习方法很大程度上依赖于可用的带注释的训练数据的数量。尽管有大量的可用数据,但缺乏注解促使研究人员寻找替代方法来利用它们。这就是自监督方法在推动深度学习的进程中发挥重要作用的地方,它不需要昂贵的标注,也不需要学习数据本身提供监督的特征表示。

监督学习不仅依赖昂贵的注释,而且还会遇到泛化错误、虚假的相关性和对抗攻击[2]等问题。最近,自监督学习方法集成了生成和对比方法,这些方法能够利用未标记的数据来学习潜在的表示。一种流行的方法是提出各种各样的代理任务,利用伪标签来帮助学习特征。诸如图像inpainting、灰度图像着色、拼图游戏、超分辨率、视频帧预测、视听对应等任务已被证明是学习良好表示的有效方法。

生成式模型在2014年引入生成对抗网络(GANs)[3]后得到普及。这项工作后来成为许多成功架构的基础,如CycleGAN[4]、StyleGAN[5]、PixelRNN[6]、Text2Image[7]、DiscoGAN [8]等。这些方法激发了更多的研究人员转向使用无标签数据在自监督的设置下训练深度学习模型。尽管取得了成功,研究人员开始意识到基于GAN的方法的一些并发症。它们很难训练,主要有两个原因: (a)不收敛——模型参数发散很多,很少收敛; (b)鉴别器太过成功,导致生成网络无法产生类似真实的假信号,导致学习无法继续。此外,生成器和判别器之间需要适当的同步,以防止判别器收敛和生成器发散。

成为VIP会员查看完整内容
0
44

当前的深度学习研究以基准评价为主。如果一种方法在专门的测试集上有良好的经验表现,那么它就被认为是有利的。这种心态无缝地反映在持续学习的重现领域,在这里研究的是持续到达的基准数据集。核心挑战是如何保护之前获得的表示,以免由于迭代参数更新而出现灾难性地遗忘的情况。然而,各个方法的比较是与现实应用程序隔离的,通常通过监视累积的测试集性能来判断。封闭世界的假设仍然占主导地位。假设在部署过程中,一个模型保证会遇到来自与用于训练的相同分布的数据。这带来了一个巨大的挑战,因为众所周知,神经网络会对未知的实例提供过于自信的错误预测,并在数据损坏的情况下崩溃。在这个工作我们认为值得注意的教训来自开放数据集识别,识别的统计偏差以外的数据观测数据集,和相邻的主动学习领域,数据增量查询等预期的性能收益最大化,这些常常在深度学习的时代被忽略。基于这些遗忘的教训,我们提出了一个统一的观点,以搭建持续学习,主动学习和开放集识别在深度神经网络的桥梁。我们的结果表明,这不仅有利于每个个体范式,而且突出了在一个共同框架中的自然协同作用。我们从经验上证明了在减轻灾难性遗忘、主动学习中查询数据、选择任务顺序等方面的改进,同时在以前提出的方法失败的地方展示了强大的开放世界应用。

https://www.zhuanzhi.ai/paper/e5bee7a1e93a93ef9139966643317e1c

概述:

随着实用机器学习系统的不断成熟,社区发现了对持续学习[1]、[2]的兴趣。与广泛练习的孤立学习不同,在孤立学习中,系统的算法训练阶段被限制在一个基于先前收集的i.i.d数据集的单一阶段,持续学习需要利用随着时间的推移而到来的数据的学习过程。尽管这种范式已经在许多机器学习系统中找到了各种应用,回顾一下最近关于终身机器学习[3]的书,深度学习的出现似乎已经将当前研究的焦点转向了一种称为“灾难性推理”或“灾难性遗忘”的现象[4],[5],正如最近的评论[6],[7],[8],[9]和对深度持续学习[8],[10],[11]的实证调查所表明的那样。后者是机器学习模型的一个特殊效应,机器学习模型贪婪地根据给定的数据群更新参数,比如神经网络迭代地更新其权值,使用随机梯度估计。当包括导致数据分布发生任何变化的不断到达的数据时,学习到的表示集被单向引导,以接近系统当前公开的数据实例上的任何任务的解决方案。自然的结果是取代以前学到的表征,导致突然忘记以前获得的信息。

尽管目前的研究主要集中在通过专门机制的设计来缓解持续深度学习中的这种遗忘,但我们认为,一种非常不同形式的灾难性遗忘的风险正在增长,即忘记从过去的文献中吸取教训的危险。尽管在连续的训练中保留神经网络表示的努力值得称赞,但除了只捕获灾难性遗忘[12]的度量之外,我们还高度关注了实际的需求和权衡,例如包括内存占用、计算成本、数据存储成本、任务序列长度和训练迭代次数等。如果在部署[14]、[15]、[16]期间遇到看不见的未知数据或小故障,那么大多数当前系统会立即崩溃,这几乎可以被视为误导。封闭世界的假设似乎无所不在,即认为模型始终只会遇到与训练过程中遇到的数据分布相同的数据,这在真实的开放世界中是非常不现实的,因为在开放世界中,数据可以根据不同的程度变化,而这些变化是不现实的,无法捕获到训练集中,或者用户能够几乎任意地向系统输入预测信息。尽管当神经网络遇到不可见的、未知的数据实例时,不可避免地会产生完全没有意义的预测,这是众所周知的事实,已经被暴露了几十年了,但是当前的努力是为了通过不断学习来规避这一挑战。选择例外尝试解决识别不可见的和未知的示例、拒绝荒谬的预测或将它们放在一边供以后使用的任务,通常总结在开放集识别的伞下。然而,大多数现有的深度连续学习系统仍然是黑盒,不幸的是,对于未知数据的错误预测、数据集的异常值或常见的图像损坏[16],这些系统并没有表现出理想的鲁棒性。

除了目前的基准测试实践仍然局限于封闭的世界之外,另一个不幸的趋势是对创建的持续学习数据集的本质缺乏理解。持续生成模型(如[17]的作者的工作,[18],[19],[20],[21],[22]),以及类增量持续学习的大部分工作(如[12]中给出的工作,[23],[24],[25],[26],[27],[28])一般调查sequentialized版本的经过时间考验的视觉分类基准如MNIST [29], CIFAR[30]或ImageNet[31],单独的类只是分成分离集和序列所示。为了在基准中保持可比性,关于任务排序的影响或任务之间重叠的影响的问题通常会被忽略。值得注意的是,从邻近领域的主动机器学习(半监督学习的一种特殊形式)中吸取的经验教训,似乎并没有整合到现代的连续学习实践中。在主动学习中,目标是学会在让系统自己查询接下来要包含哪些数据的挑战下,逐步地找到与任务解决方案最接近的方法。因此,它可以被视为缓解灾难性遗忘的对抗剂。当前的持续学习忙于维护在每个步骤中获得的信息,而不是无休止地积累所有的数据,而主动学习则关注于识别合适的数据以纳入增量训练系统的补充问题。尽管在主动学习方面的早期开创性工作已经迅速识别出了通过使用启发式[32]、[33]、[34]所面临的强大应用的挑战和陷阱,但后者在深度学习[35]、[36]、[37]、[38]的时代再次占据主导地位,这些挑战将再次面临。

在这项工作中,我们第一次努力建立一个原则性和巩固的深度持续学习、主动学习和在开放的世界中学习的观点。我们首先单独回顾每一个主题,然后继续找出在现代深度学习中似乎较少受到关注的以前学到的教训。我们将继续争论,这些看似独立的主题不仅从另一个角度受益,而且应该结合起来看待。在这个意义上,我们建议将当前的持续学习实践扩展到一个更广泛的视角,将持续学习作为一个总括性术语,自然地包含并建立在先前的主动学习和开放集识别工作之上。本文的主要目的并不是引入新的技术或提倡一种特定的方法作为通用的解决方案,而是对最近提出的神经网络[39]和[40]中基于变分贝叶斯推理的方法进行了改进和扩展,以说明一种走向全面框架的可能选择。重要的是,它作为论证的基础,努力阐明生成建模作为深度学习系统关键组成部分的必要性。我们强调了在这篇论文中发展的观点的重要性,通过实证证明,概述了未来研究的含义和有前景的方向。

成为VIP会员查看完整内容
0
103

【导读】分布式机器学习Distributed Machine Learning是学术界和工业界关注的焦点。最近来自荷兰的几位研究人员撰写了关于分布式机器学习的综述,共33页pdf和172篇文献,概述了分布式机器学习相对于传统(集中式)机器学习的挑战和机遇,讨论了用于分布式机器学习的技术,并对可用的系统进行了概述,从而全面概述了该领域的最新进展

​论文地址: https://www.zhuanzhi.ai/paper/161029da3ed8b6027a1199c026df7d07

摘要 在过去的十年里,对人工智能的需求显著增长,而机器学习技术的进步和利用硬件加速的能力推动了这种增长。然而,为了提高预测的质量并使机器学习解决方案在更复杂的应用中可行,需要大量的训练数据。虽然小的机器学习模型可以用少量的数据进行训练,但训练大模型(如神经网络)的输入随着参数的数量呈指数增长。由于处理训练数据的需求已经超过了计算机器计算能力的增长,因此需要将机器学习的工作负载分布到多台机器上,并将集中式的学习任务转换为分布式系统。这些分布式系统提出了新的挑战,首先是训练过程的有效并行化和一致模型的创建。本文概述了分布式机器学习相对于传统(集中式)机器学习的挑战和机遇,讨论了用于分布式机器学习的技术,并对可用的系统进行了概述,从而全面概述了该领域的最新进展。

1. 引言

近年来,新技术的快速发展导致了数据采集的空前增长。机器学习(ML)算法正越来越多地用于分析数据集和构建决策系统,因为问题的复杂性,算法解决方案是不可行的。例如控制自动驾驶汽车[23],识别语音[8],或者预测消费者行为[82]。

在某些情况下,训练模型的长时间运行会引导解决方案设计者使用分布式系统来增加并行性和I/O带宽总量,因为复杂应用程序所需的训练数据很容易达到tb级的[29]。在其他情况下,当数据本身就是分布式的,或者数据太大而不能存储在一台机器上时,集中式解决方案甚至都不是一个选项。例如,大型企业对存储在不同位置的[19]的数据进行事务处理,或者对大到无法移动和集中的天文数据进行事务处理[125]。

为了使这些类型的数据集可作为机器学习问题的训练数据,必须选择和实现能够并行计算、数据分布和故障恢复能力的算法。在这一领域进行了丰富多样的研究生态系统,我们将在本文中对其进行分类和讨论。与之前关于分布式机器学习([120][124])或相关领域的调查([153][87][122][171][144])相比,我们对该问题应用了一个整体的观点,并从分布式系统的角度讨论了最先进的机器学习的实践方面。

第2节深入讨论了机器学习的系统挑战,以及如何采用高性能计算(HPC)的思想来加速和提高可扩展性。第3节描述了分布式机器学习的参考体系结构,涵盖了从算法到网络通信模式的整个堆栈,这些模式可用于在各个节点之间交换状态。第4节介绍了最广泛使用的系统和库的生态系统及其底层设计。最后,第5节讨论了分布式机器学习的主要挑战

2. 机器学习——高性能计算的挑战?

近年来,机器学习技术在越来越复杂的应用中得到了广泛应用。虽然出现了各种相互竞争的方法和算法,但所使用的数据表示在结构上惊人地相似。机器学习工作负载中的大多数计算都是关于向量、矩阵或张量的基本转换——这是线性代数中众所周知的问题。优化这些操作的需求是高性能计算社区数十年来一个非常活跃的研究领域。因此,一些来自HPC社区的技术和库(如BLAS[89]或MPI[62])已经被机器学习社区成功地采用并集成到系统中。与此同时,HPC社区已经发现机器学习是一种新兴的高价值工作负载,并开始将HPC方法应用于它们。Coates等人,[38]能够在短短三天内,在他们的商用现货高性能计算(COTS HPC)系统上训练出一个10亿个参数网络。You等人[166]在Intel的Knights Landing(一种为高性能计算应用而设计的芯片)上优化了神经网络的训练。Kurth等人[84]证明了像提取天气模式这样的深度学习问题如何在大型并行高性能计算系统上进行优化和快速扩展。Yan等人[163]利用借鉴于HPC的轻量级概要分析等技术对工作负载需求进行建模,解决了在云计算基础设施上调度深度神经网络应用程序的挑战。Li等人[91]研究了深度神经网络在加速器上运行时对硬件错误的弹性特性,加速器通常部署在主要的高性能计算系统中。

与其他大规模计算挑战一样,加速工作负载有两种基本的、互补的方法:向单个机器添加更多资源(垂直扩展或向上扩展)和向系统添加更多节点(水平扩展或向外扩展)。

3. 一个分布式机器学习的参考架构

avatar

图1 机器学习的概述。在训练阶段,利用训练数据和调整超参数对ML模型进行优化。然后利用训练后的模型对输入系统的新数据进行预测。

avatar

图2 分布式机器学习中的并行性。数据并行性在di上训练同一个模型的多个实例!模型并行性将单个模型的并行路径分布到多个节点。

机器学习算法

机器学习算法学习根据数据做出决策或预测。我们根据以下三个特征对当前的ML算法进行了分类:

反馈、在学习过程中给算法的反馈类型

目的、期望的算法最终结果

方法、给出反馈时模型演化的本质

反馈 训练算法需要反馈,这样才能逐步提高模型的质量。反馈有几种不同类型[165]:

包括 监督学习、无监督学习、半监督学习与强化学习

目的 机器学习算法可用于各种各样的目的,如对图像进行分类或预测事件的概率。它们通常用于以下任务[85]: 异常检测、分类、聚类、降维、表示学习、回归

每一个有效的ML算法都需要一种方法来迫使算法根据新的输入数据进行改进,从而提高其准确性。通过算法的学习方式,我们识别出了不同的ML方法组: 演化算法、随机梯度下降、支持向量机、感知器、神经网络、规则机器学习、主题模型、矩阵分解。

avatar

图3所示:基于分布程度的分布式机器学习拓扑

4. 分布式机器学习生态系统

avatar

图4所示。分布式机器学习生态系统。通用分布式框架和单机ML系统和库都在向分布式机器学习靠拢。云是ML的一种新的交付模型。

5 结论和当前的挑战

分布式机器学习是一个蓬勃发展的生态系统,它在体系结构、算法、性能和效率方面都有各种各样的解决方案。为了使分布式机器学习在第一时间成为可行的,必须克服一些基本的挑战,例如,建立一种机制,使数据处理并行化,同时将结果组合成一个单一的一致模型。现在有工业级系统,针对日益增长的欲望与机器学习解决更复杂的问题,分布式机器学习越来越普遍和单机解决方案例外,类似于数据处理一般发展在过去的十年。然而,对于分布式机器学习的长期成功来说,仍然存在许多挑战:性能、容错、隐私、可移植性等。

成为VIP会员查看完整内容
A Survey on Distributed Machine Learning.pdf
0
73
小贴士
相关VIP内容
专知会员服务
35+阅读 · 10月8日
专知会员服务
78+阅读 · 5月5日
专知会员服务
49+阅读 · 4月22日
专知会员服务
12+阅读 · 4月16日
专知会员服务
108+阅读 · 2月4日
专知会员服务
44+阅读 · 2020年11月5日
专知会员服务
103+阅读 · 2020年9月7日
专知会员服务
149+阅读 · 2020年3月6日
最新《分布式机器学习》论文综述最新DML进展,33页pdf
专知会员服务
73+阅读 · 2019年12月26日
相关论文
Philipp Hieronymi,Christian Schulz
0+阅读 · 10月22日
Peter Bishop,Andrey Povyakalo,Lorenzo Strigini
0+阅读 · 10月20日
Shao-Qun Zhang,Wei Gao,Zhi-Hua Zhou
0+阅读 · 10月20日
Aman Bansal,Rahul Chunduru,Deepesh Data,Manoj Prabhakaran
0+阅读 · 10月18日
Wu Lin,Frank Nielsen,Mohammad Emtiyaz Khan,Mark Schmidt
0+阅读 · 10月15日
Do RNN and LSTM have Long Memory?
Jingyu Zhao,Feiqing Huang,Jia Lv,Yanjie Duan,Zhen Qin,Guodong Li,Guangjian Tian
16+阅读 · 2020年6月10日
Kamran Kowsari,Kiana Jafari Meimandi,Mojtaba Heidarysafa,Sanjana Mendu,Laura E. Barnes,Donald E. Brown
10+阅读 · 2020年5月20日
Graph Neural Networks: A Review of Methods and Applications
Jie Zhou,Ganqu Cui,Zhengyan Zhang,Cheng Yang,Zhiyuan Liu,Lifeng Wang,Changcheng Li,Maosong Sun
4+阅读 · 2019年7月10日
Jianfeng Gao,Michel Galley,Lihong Li
26+阅读 · 2018年9月21日
Xiaoqiang Lu,Binqiang Wang,Xiangtao Zheng,Xuelong Li
11+阅读 · 2017年12月21日
Top