人类具有从经验中不断学习的非凡能力。我们不仅可以把以前学过的知识和技能应用到新的情况中,我们还可以把这些作为以后学习的基础。人工智能(AI)的宏伟目标之一是构建一种人工的“持续学习”代理,通过对越来越复杂的知识和技能的自主增量开发,从自身经验构建对世界的复杂理解。然而,尽管有早期的推测和开创性的工作,很少有研究和努力致力于解决这一愿景。当前的人工智能系统在面对新数据或环境下时会受到很大的影响,这些数据或环境甚至与它们所接受的训练稍有不同。此外,学习过程通常局限于狭窄、孤立的任务中的固定数据集,这很难导致更复杂、更自主的智能行为的出现。从本质上说,持续学习和适应能力,虽然通常被认为是每一个智能主体的基本支柱,但基本上被排除在人工智能的主要研究焦点之外。在这篇论文中,我们根据机器学习研究的最新进展和人工智能的深层架构来研究这些思想的应用。我们提出了一个全面和统一的框架,以持续学习,新的指标,基准和算法,以及提供大量的实验评估在不同的监督,非监督和强化学习任务。

http://amsdottorato.unibo.it/9073/

成为VIP会员查看完整内容
0
14

相关内容

强化学习定义了仅通过行动和观察来学习做出好的决策的代理所面临的问题。为了成为有效的问题解决器,这些代理必须能有效地探索广阔的世界,从延迟的反馈中分配信用,并归纳出新的经验,同时要利用有限的数据、计算资源和感知带宽。抽象对所有这些努力都是必要的。通过抽象,代理可以形成其环境的简洁模型,以支持一个理性的、自适应的决策者所需要的许多实践。在这篇论文中,我提出了强化学习中的抽象理论。首先,我提出了执行抽象过程的函数的三个要求:它们应该1)保持近似最优行为的表示,2) 有效地被学习和构造,3) 更低的规划或学习时间。然后,我提出了一套新的算法和分析,阐明了代理如何根据这些需求学习抽象。总的来说,这些结果提供了一条通向发现和使用抽象的部分路径,将有效强化学习的复杂性降到最低。

强化学习问题如下。RL代理通过以下两个离散步骤的无限重复与环境进行交互:

  1. 代理收到观察和奖励。
  2. 代理从这种交互中学习并执行一个动作。 这个过程如图1.2所示。在这种互动过程中,agent的目标是做出决策,使其获得的长期报酬最大化。

论文余下组织如下: 第1部分。在第2章中,我提供了关于RL(2.1节)以及状态抽象(2.2节)和动作抽象(2.3节)的必要背景知识。

第2部分。下一部分将专注于状态抽象。我提出了新的算法和三个紧密相连的分析集,每一个目标是发现满足引入的需求的状态抽象。在第3章中,我开发了一个形式化的框架来推理状态抽象,以保持近似最优的行为。这个框架由定理3.1总结,它强调了值保持状态抽象的四个充分条件。然后,在第4章中,我将这一分析扩展到终身RL设置,在终身RL设置中,代理必须不断地与不同的任务交互并解决不同的任务。本章的主要观点是介绍了用于终身学习设置的PAC状态抽象,以及澄清如何有效计算它们的结果。定理4.4说明了保证这些抽象保持良好行为的意义,定理4.5说明了有多少以前已解决的任务足以计算PAC状态抽象。我着重介绍了模拟实验的结果,这些结果说明了所介绍的状态抽象类型在加速学习和计划方面的效用。最后,第五章介绍了信息论工具对状态抽象的作用。我提出了状态抽象和率失真理论[283,43]和信息瓶颈方法[318]之间的紧密联系,并利用这种联系设计新的算法,以高效地构建状态抽象,优雅地在压缩和良好行为表示之间进行权衡。我以各种方式扩展了这个算法框架,说明了它发现状态抽象的能力,这些状态抽象提供了良好行为的样本高效学习。

第3部分。然后我转向行动抽象。在第6章中,我展示了Jinnai等人的分析[144],研究了寻找尽可能快地做出计划的抽象动作的问题——主要结果表明,这个问题通常是NP困难的(在适当简化的假设下),甚至在多项式时间内很难近似。然后,在第7章中,我解决了在规划中伴随高层次行为构建预测模型的问题。这样的模型使代理能够估计在给定状态下执行行为的结果。在本章中,我将介绍并分析一个用于这些高级行为的新模型,并证明在温和的假设下,这个简单的替代仍然是有用的。我提供的经验证据表明,新的预测模型可以作为其更复杂的对等物的适当替代者。最后,在第8章中,我探讨了抽象行动改善探索过程的潜力。我描述了Jinnai等人开发的一种算法[145],该算法基于构建可以轻松到达环境所有部分的抽象行动的概念,并证明该算法可以加速对基准任务的探索。

第4部分。最后,我转向状态动作抽象的联合过程。在第9章中,我介绍了一个将状态和动作抽象结合在一起的简单机制。使用这个方案,然后我证明了哪些状态和动作抽象的组合可以在任何有限的MDP中保持良好的行为策略的表示,定理9.1总结了这一点。接下来,我将研究这些联合抽象的反复应用,作为构建分层抽象的机制。在对层次结构和底层状态动作抽象的温和假设下,我证明了这些层次结构也可以保持全局近最优行为策略的表示,如定理9.3所述。然后,我将在第十章中总结我的思考和今后的方向。

总的来说,这些结果阐明了强化学习的抽象理论。图1.4展示了本文的可视化概述。

成为VIP会员查看完整内容
0
40

现代机器学习擅长于从固定的数据集和固定的环境中训练出强大的模型,常常超过人类的能力。然而,这些模型未能模拟人类的学习过程,而人类的学习过程是有效的、稳健的,并且能够从非平稳世界的连续经验中逐步学习。对于这一局限性的见解可以从神经网络优化的本质中获得,这意味着持续学习技术可以从根本上提高深度学习,并打开了新的应用领域的大门。持续学习的有前途的方法可以在最细粒度的层次上找到,使用基于梯度的方法,也可以在体系结构层次上找到,使用模块化和基于内存的方法。我们也认为元学习是一个潜在的重要方向。

人工智能研究在过去的几个月中取得了巨大的进步,但它主要依赖于固定的数据集和固定的环境。持续学习是一个日益相关的研究领域,它表明人工系统可能像生物系统一样,从连续不断的相关数据流中有序地学习。在目前的回顾中,我们将持续学习与神经网络的学习动力学联系起来,强调它在稳步提高数据效率方面的潜力。我们进一步考虑了近年来出现的许多受生物学启发的新方法,重点关注那些利用正规化、模块化、记忆和元学习的方法,并强调了一些最有前途和最有影响的方向。

世界不是静止不动的

人工智能成功的一个常见基准是模仿人类学习的能力。我们测量人类识别图像、玩游戏和驾驶汽车的能力,举几个例子,然后开发机器学习模型,如果有足够的训练数据,它可以匹配或超过这些能力。这种范式把重点放在最终结果上,而不是学习过程上,并且忽略了人类学习的一个关键特征:它对不断变化的任务和连续的经验是鲁棒的。人类以这种方式学习也许并不奇怪,毕竟,时间是不可逆的,世界是不稳定的(见词汇表),所以人类的学习已经进化到在动态学习环境中茁壮成长。然而,这种鲁棒性与最强大的现代机器学习方法形成了鲜明的对比,后者只有在数据经过仔细的洗牌、平衡和均质后才能表现良好。这些模型不仅表现不佳,而且在某些情况下,它们会完全失败,或者在早期学习的任务上遭遇快速的性能下降,即所谓的灾难性遗忘。

基于生物系统持续学习基础

对自然世界及其智能物种的研究经常与人工智能研究交叉,包括与持续学习有关的方面[1]。生物学为在复杂环境中成功地持续学习提供了存在证据,也暗示了成功方法的设计原则和权衡。有多种机制使生物系统能够适应不断变化的环境,而不固执或遗忘。因此,在本节中,我们将通过类比来介绍四种持续学习模式,并将每种方法的详细讨论留到后面的章节中。此外,可以通过描述它们的规范模型来简要地描述这些方法,如图1(关键图)所示。

持续学习的定义

持续学习的问题通常是由顺序训练协议和解决方案所期望的特性来定义的。与静态数据集或环境的普通机器学习设置相反,持续学习设置明确地关注非平稳或变化的环境,通常被划分为需要按顺序完成的一组任务。这种设置可能在任务转换(平滑或离散)、任务长度和重复、任务类型(如无监督、监督或强化学习)方面有所不同,或者甚至可能没有定义明确的任务[9-11]。与课程学习相比[12,13],学习者不能控制任务的顺序。

支持现代机器学习的独立同分布假设

神经网络大量利用现代技术来并行计算,同时考虑大量数据;事实上,这种易于伸缩的特性使得它们在过去的十年中成为了语音、视觉和语言应用程序的主流方法。 在典型的学习设置中,目标是通过设置网络的参数来最小化一些损失函数,例如真输出和预测输出之间的误差。基于梯度的学习,最有效的和广泛使用的范式,是一种迭代算法,在每一次迭代,使一个小变化的参数,以减少损失(更详细的解释,见盒2)。这条规则的机制在拔河的动态结果,其中每个数据样本正试图拉动每个参数更大或更小。通过平均梯度,我们因此创建了一个拔河游戏,其中应用于每个参数的更新(因为它是正的或负的)揭示了哪个数据样本赢了或输了。在许多优化步骤上组合许多拔河式更新,可以进行学习(图3)。

基于梯度的解决方案

由前面描述的拔河式学习动态驱动,一种有前途的方法是直接调节不同任务的梯度。这不仅是优化问题的核心,而且是由生物大脑[3]中突触巩固的研究激发的。一种方法是迫使梯度与之前学习任务的梯度保持一致[19,20],消除潜在干扰。这些方法在其他环境中也有好处,例如,在多任务学习中,它们有可能在目标冲突的情况下提高学习效率[21-23]。

模块化架构

模块化的神经网络结构是一种自然有效的解决持续学习中的干扰和灾难性遗忘问题的方法。模块化提供了一个折衷方案,即使用一个容易遗忘的单一单片网络,以及为每个任务使用独立的网络,这既可以防止灾难性遗忘,也可以防止任务之间的转移(参见图1C的模块化架构说明)。模块化在生物系统中也很明显,它支持大脑区域的功能专门化。

人工学习系统的记忆

基于梯度和模块化的方法可能更适合短期的持续学习,而不是长期的记忆。基于梯度的方法不能防止任意长任务序列的遗忘,而模块化方法可以在长时间尺度上保存知识,它们可能在神经网络能力方面达到实际的极限。考虑一下这样一个具有挑战性的场景:在几个月的时间里,把食物藏在1000个不同的地方,然后在更多的食物消失后,正确地找到每一个食物。这个特征是每个冬天都会出现的,比如夜莺、松鸦和鸦类[57]。通过调整一个简单的神经网络的参数来保存存储食物的顺序经验既具有挑战性又效率低下。一个更可伸缩的策略是使用专用的读写内存对空间位置进行编码。

元学习:发现持续学习的归纳偏差

到目前为止所讨论的所有解决方案都规定了用于持续学习的手工设计的机制或架构,归纳偏差。每种归纳偏差都在需求(如良好的知识保留与基于记忆的方法中的正向迁移)之间达成了不同的权衡。值得考虑的是,从数据中学习解决方案,而不是依靠人类的独创性来设计它,是否能够实现更好的权衡。历史上,许多元学习或学习-学习方法已经证明,解决方案可以通过自动学习归纳偏差(如架构、数据和学习参数)来改进,否则需要手工设计(图1E) 。

结论和未来方向

机器学习研究人员经常指出,人类具有快速学习和概括(例如,从几个例子中推断出一个模式)的非凡能力。然而,我们并不经常重新评价人类在一生的教育和经历中不断学习的能力,尽管正是这种能力使人类在科学、艺术和工业上取得成就。这篇文章不仅试图强调持续学习的重要性,而且还暴露了现代神经网络在这方面的局限性,特别是导致效率低下、基于梯度的拔河的信用分配问题。

通过对这一空间的调查,我们发现了一种学习模式,如果扩展到更有雄心的领域,它就有可能发挥真正的影响力。毫不奇怪,这些范式都有很强的平行神经科学和生物系统。基于梯度的方法直接修改了神经网络的操作时间,并被证明可以减少灾难性遗忘。

模块化架构为干扰和灾难性遗忘提供了实用的解决方案,同时通过技能和知识的层次重组实现面向迁移。端到端记忆模型可以成为长时间学习的可扩展解决方案,元学习方法可以超越手工设计的算法和架构。有了这些潜在的积极影响,也必须认识到部署不断变化的机器学习模型所涉及的风险,因为任何安全和预期行为的初始评估都不能轻易地永久保证。然而,通过提高学习算法的长期可靠性,以及通过开发确保某些规则或边界不被违反的架构,持续学习解决方案可以降低这些风险。

成为VIP会员查看完整内容
0
34

数据科学是设计从大量数据中提取知识的算法和管道。时间序列分析是数据科学的一个领域,它感兴趣的是分析按时间顺序排列的数值序列。时间序列特别有趣,因为它让我们能够可视化和理解一个过程在一段时间内的演变。他们的分析可以揭示数据之间的趋势、关系和相似性。存在大量以时间序列形式包含数据的领域:医疗保健(心电图、血糖等)、活动识别、遥感、金融(股票市场价格)、工业(传感器)等。

在数据挖掘中,分类是一项受监督的任务,它涉及从组织到类中的带标签的数据中学习模型,以便预测新实例的正确标签。时间序列分类包括构造用于自动标注时间序列数据的算法。例如,使用健康患者或心脏病患者的一组标记的心电图,目标是训练一个模型,能够预测新的心电图是否包含病理。时间序列数据的时序方面需要算法的发展,这些算法能够利用这种时间特性,从而使传统表格数据现有的现成机器学习模型在解决底层任务时处于次优状态。

在这种背景下,近年来,深度学习已经成为解决监督分类任务的最有效方法之一,特别是在计算机视觉领域。本论文的主要目的是研究和发展专门为分类时间序列数据而构建的深度神经网络。因此,我们进行了第一次大规模的实验研究,这使我们能够比较现有的深度学习方法,并将它们与其他基于非深度学习的先进方法进行比较。随后,我们在这一领域做出了大量的贡献,特别是在迁移学习、数据增强、集成和对抗性攻击的背景下。最后,我们还提出了一种新的架构,基于著名的Inception 网络(谷歌),它是目前最有效的架构之一。

我们在包含超过100个数据集的基准测试上进行的实验使我们能够验证我们的贡献的性能。最后,我们还展示了深度学习方法在外科数据科学领域的相关性,我们提出了一种可解释的方法,以便从运动学多变量时间序列数据评估外科技能。

深度学习序列分类概述

在过去的二十年中,TSC被认为是数据挖掘中最具挑战性的问题之一(Yang and Wu, 2006; Esling and Agon, 2012)。随着时间数据可用性的增加(Silva et al.,2018),自2015年以来已有数百种TSC算法被提出(Bagnall et al.,2017)。由于时间序列数据具有自然的时间顺序,几乎在每一个需要某种人类认知过程的任务中都存在时间序列数据(Langkvist, Karlsson, and Loutfi, 2014)。事实上,任何使用考虑到排序概念的已注册数据的分类问题都可以被视为TSC问题(Cristian Borges Gamboa, 2017)。时间序列在许多实际应用中都遇到过,包括医疗保健(Gogolou等,2018)和人类活动识别(Wang et al.,2018;到声学场景分类(Nwe, Dat, and Ma, 2017)和网络安全(Susto, Cenedese, and Terzi, 2018)。此外,UCR/UEA档案中数据集类型的多样性(Dau等,2019;Bagnall et al,2017)(最大的时间序列数据集储存库)展示了TSC问题的不同应用。

成为VIP会员查看完整内容
0
69

与经典的监督学习不同,强化学习(RL)从根本上是交互式的: 一个自主的智能体必须学习如何在一个未知的、不确定的、可能是对抗的环境中表现,通过与环境的积极互动来收集有用的反馈,以提高其序列决策能力。RL代理还将干预环境: 代理做出决策,进而影响环境的进一步演化。

由于它的普遍性——大多数机器学习问题可以看作是特殊情况——RL很难。由于没有直接的监督,RL的一个主要挑战是如何探索未知的环境并有效地收集有用的反馈。在最近的RL成功案例中(如视频游戏中的超人表现[Mnih et al., 2015]),我们注意到它们大多依赖于随机探索策略,如“贪婪”。同样的,策略梯度法如REINFORCE [Williams, 1992],通过向动作空间注入随机性进行探索,希望随机性能导致良好的动作序列,从而获得高总回报。理论RL文献已经开发出了更复杂的算法来进行有效的探索(例如,[Azar等人,2017]),然而,这些接近最优算法的样本复杂度必须根据底层系统的关键参数(如状态和动作空间的维数)呈指数级增长。这种指数依赖性阻碍了这些理论上优雅的RL算法在大规模应用中的直接应用。总之,如果没有进一步的假设,无论在实践上还是在理论上,RL都是困难的。

在本文中,我们试图通过引入额外的假设和信息源来获得对RL问题的支持。本文的第一个贡献是通过模仿学习来提高RL样本的复杂度。通过利用专家的示范,模仿学习极大地简化了探索的任务。在本论文中,我们考虑了两种设置:一种是交互式模仿学习设置,即在训练期间专家可以进行查询;另一种是仅通过观察进行模仿学习的设置,在这种设置中,我们只有一组由对专家状态的观察组成的演示(没有记录专家行为)。我们在理论和实践中研究如何模仿专家,以减少样本的复杂性相比,纯RL方法。第二个贡献来自于无模型的强化学习。具体来说,我们通过构建一个从策略评估到无后悔在线学习的总体约简来研究策略评估,无后悔在线学习是一个活跃的研究领域,具有良好的理论基础。这样的约减创造了一个新的算法族,可以在生成过程的非常弱的假设下证明正确的策略评估。在此基础上,对行动空间和参数空间两种无模型勘探策略进行了理论和实证研究。这项工作的第三个贡献来自基于模型的强化学习。我们提供了基于模型的RL方法和一般无模型的RL方法之间的第一个指数样本复度分离。然后,我们提供了基于PAC模型的RL算法,可以同时实现对许多有趣的MDPs的采样效率,如表列MDPs、因子MDPs、Lipschitz连续MDPs、低秩MDPs和线性二次控制。通过将最优控制、模型学习和模仿学习结合在一起,我们还提供了一个更实用的基于模型的RL框架,称为双重策略迭代(DPI)。此外,我们给出了一个通用的收敛分析,将现有的近似策略迭代理论推广到DPI。DPI对最近成功的实用RL算法如ExIt和AlphaGo Zero进行了概括和提供了第一个理论基础[Anthony et al., 2017, Silver et al., 2017],并为统一基于模型的RL方法和无模型的RL方法提供了一种理论健全和实践高效的方法。

https://www.ri.cmu.edu/publications/towards-generalization-and-efficiency-in-reinforcement-learning/

成为VIP会员查看完整内容
0
44

当前的深度学习研究以基准评价为主。如果一种方法在专门的测试集上有良好的经验表现,那么它就被认为是有利的。这种心态无缝地反映在持续学习的重现领域,在这里研究的是持续到达的基准数据集。核心挑战是如何保护之前获得的表示,以免由于迭代参数更新而出现灾难性地遗忘的情况。然而,各个方法的比较是与现实应用程序隔离的,通常通过监视累积的测试集性能来判断。封闭世界的假设仍然占主导地位。假设在部署过程中,一个模型保证会遇到来自与用于训练的相同分布的数据。这带来了一个巨大的挑战,因为众所周知,神经网络会对未知的实例提供过于自信的错误预测,并在数据损坏的情况下崩溃。在这个工作我们认为值得注意的教训来自开放数据集识别,识别的统计偏差以外的数据观测数据集,和相邻的主动学习领域,数据增量查询等预期的性能收益最大化,这些常常在深度学习的时代被忽略。基于这些遗忘的教训,我们提出了一个统一的观点,以搭建持续学习,主动学习和开放集识别在深度神经网络的桥梁。我们的结果表明,这不仅有利于每个个体范式,而且突出了在一个共同框架中的自然协同作用。我们从经验上证明了在减轻灾难性遗忘、主动学习中查询数据、选择任务顺序等方面的改进,同时在以前提出的方法失败的地方展示了强大的开放世界应用。

https://www.zhuanzhi.ai/paper/e5bee7a1e93a93ef9139966643317e1c

概述:

随着实用机器学习系统的不断成熟,社区发现了对持续学习[1]、[2]的兴趣。与广泛练习的孤立学习不同,在孤立学习中,系统的算法训练阶段被限制在一个基于先前收集的i.i.d数据集的单一阶段,持续学习需要利用随着时间的推移而到来的数据的学习过程。尽管这种范式已经在许多机器学习系统中找到了各种应用,回顾一下最近关于终身机器学习[3]的书,深度学习的出现似乎已经将当前研究的焦点转向了一种称为“灾难性推理”或“灾难性遗忘”的现象[4],[5],正如最近的评论[6],[7],[8],[9]和对深度持续学习[8],[10],[11]的实证调查所表明的那样。后者是机器学习模型的一个特殊效应,机器学习模型贪婪地根据给定的数据群更新参数,比如神经网络迭代地更新其权值,使用随机梯度估计。当包括导致数据分布发生任何变化的不断到达的数据时,学习到的表示集被单向引导,以接近系统当前公开的数据实例上的任何任务的解决方案。自然的结果是取代以前学到的表征,导致突然忘记以前获得的信息。

尽管目前的研究主要集中在通过专门机制的设计来缓解持续深度学习中的这种遗忘,但我们认为,一种非常不同形式的灾难性遗忘的风险正在增长,即忘记从过去的文献中吸取教训的危险。尽管在连续的训练中保留神经网络表示的努力值得称赞,但除了只捕获灾难性遗忘[12]的度量之外,我们还高度关注了实际的需求和权衡,例如包括内存占用、计算成本、数据存储成本、任务序列长度和训练迭代次数等。如果在部署[14]、[15]、[16]期间遇到看不见的未知数据或小故障,那么大多数当前系统会立即崩溃,这几乎可以被视为误导。封闭世界的假设似乎无所不在,即认为模型始终只会遇到与训练过程中遇到的数据分布相同的数据,这在真实的开放世界中是非常不现实的,因为在开放世界中,数据可以根据不同的程度变化,而这些变化是不现实的,无法捕获到训练集中,或者用户能够几乎任意地向系统输入预测信息。尽管当神经网络遇到不可见的、未知的数据实例时,不可避免地会产生完全没有意义的预测,这是众所周知的事实,已经被暴露了几十年了,但是当前的努力是为了通过不断学习来规避这一挑战。选择例外尝试解决识别不可见的和未知的示例、拒绝荒谬的预测或将它们放在一边供以后使用的任务,通常总结在开放集识别的伞下。然而,大多数现有的深度连续学习系统仍然是黑盒,不幸的是,对于未知数据的错误预测、数据集的异常值或常见的图像损坏[16],这些系统并没有表现出理想的鲁棒性。

除了目前的基准测试实践仍然局限于封闭的世界之外,另一个不幸的趋势是对创建的持续学习数据集的本质缺乏理解。持续生成模型(如[17]的作者的工作,[18],[19],[20],[21],[22]),以及类增量持续学习的大部分工作(如[12]中给出的工作,[23],[24],[25],[26],[27],[28])一般调查sequentialized版本的经过时间考验的视觉分类基准如MNIST [29], CIFAR[30]或ImageNet[31],单独的类只是分成分离集和序列所示。为了在基准中保持可比性,关于任务排序的影响或任务之间重叠的影响的问题通常会被忽略。值得注意的是,从邻近领域的主动机器学习(半监督学习的一种特殊形式)中吸取的经验教训,似乎并没有整合到现代的连续学习实践中。在主动学习中,目标是学会在让系统自己查询接下来要包含哪些数据的挑战下,逐步地找到与任务解决方案最接近的方法。因此,它可以被视为缓解灾难性遗忘的对抗剂。当前的持续学习忙于维护在每个步骤中获得的信息,而不是无休止地积累所有的数据,而主动学习则关注于识别合适的数据以纳入增量训练系统的补充问题。尽管在主动学习方面的早期开创性工作已经迅速识别出了通过使用启发式[32]、[33]、[34]所面临的强大应用的挑战和陷阱,但后者在深度学习[35]、[36]、[37]、[38]的时代再次占据主导地位,这些挑战将再次面临。

在这项工作中,我们第一次努力建立一个原则性和巩固的深度持续学习、主动学习和在开放的世界中学习的观点。我们首先单独回顾每一个主题,然后继续找出在现代深度学习中似乎较少受到关注的以前学到的教训。我们将继续争论,这些看似独立的主题不仅从另一个角度受益,而且应该结合起来看待。在这个意义上,我们建议将当前的持续学习实践扩展到一个更广泛的视角,将持续学习作为一个总括性术语,自然地包含并建立在先前的主动学习和开放集识别工作之上。本文的主要目的并不是引入新的技术或提倡一种特定的方法作为通用的解决方案,而是对最近提出的神经网络[39]和[40]中基于变分贝叶斯推理的方法进行了改进和扩展,以说明一种走向全面框架的可能选择。重要的是,它作为论证的基础,努力阐明生成建模作为深度学习系统关键组成部分的必要性。我们强调了在这篇论文中发展的观点的重要性,通过实证证明,概述了未来研究的含义和有前景的方向。

成为VIP会员查看完整内容
0
83

强化一词来源于实验心理学中对动物学习的研究,它指的是某一事件的发生,与某一反应之间有恰当的关系,而这一事件往往会增加该反应在相同情况下再次发生的可能性。虽然心理学家没有使用“强化学习”这个术语,但它已经被人工智能和工程领域的理论家广泛采用,用来指代基于这一强化原理的学习任务和算法。最简单的强化学习方法使用的是一个常识,即如果一个行为之后出现了一个令人满意的状态,或者一个状态的改善,那么产生该行为的倾向就会得到加强。强化学习的概念在工程领域已经存在了几十年(如Mendel和McClaren 1970),在人工智能领域也已经存在了几十年(Minsky 1954, 1961;撒母耳1959;图灵1950)。然而,直到最近,强化学习方法的发展和应用才在这些领域占据了大量的研究人员。激发这种兴趣的是两个基本的挑战:1) 设计能够在复杂动态环境中在不确定性下运行的自主机器人代理,2) 为非常大规模的动态决策问题找到有用的近似解。

成为VIP会员查看完整内容
0
136

当对一系列学习问题进行优化时,卷积神经网络会经历灾难性的遗忘:当满足当前训练示例的目标时,它们在以前任务中的性能会急剧下降。在这项工作中,我们介绍了一个基于条件计算的新的框架来解决这个问题。

成为VIP会员查看完整内容
0
11

【简介】随着深度表示学习的发展,强化学习(RL)已经成为了一个强大的学习框架,其可以在高维度空间中学习复杂的规则。这篇综述总结了深度强化学习(DRL)算法,提供了采用强化学习的自动驾驶任务的分类方法,重点介绍了算法上的关键挑战和在现实世界中将强化学习部署在自动驾驶方面的作用,以及最终评估,测试和加强强化学习和模仿学习健壮性的现有解决方案。

论文链接: https://arxiv.org/abs/2002.00444

介绍:

自动驾驶(AD)系统由多个感知级任务组成,由于采用了深度学习架构,这些任务现在已经达到了很高的精度。除了感知任务之外,自主驾驶系统还包含多个其他任务,传统的监督学习方法已经不再适用。首先,当对agent行为的预测发生变化时,从自动驾驶agent所处的环境中接收到的未来传感器观察到的结果,例如获取市区最佳驾驶速度的任务。其次,监督信号(如碰撞时间(TTC),相对于agent最佳轨迹的侧向误差)表示agent的动态变化以及环境中的不确定性。这些问题都需要定义随机损失函数来使其最大化。最后,agent需要学习当前环境新的配置参数,预测其所处的环境中每一时刻的最优决策。这表明在观察agent和其所处环境的情况下,一个高维度的空间能够给出大量唯一的配置参数。在这些场景中,我们的目标是解决一个连续决策的问题。在这篇综述中,我们将介绍强化学习的概念,强化学习是一种很有前景的解决方案和任务分类方法,特别是在驱动策略、预测感知、路径规划以及低层控制器设计等领域。我们还重点回顾了强化学习在自动驾驶领域当中各种现实的应用。最后,我们通过阐述应用当前诸如模仿学习和Q学习等强化学习算法时所面临的算力挑战和风险来激励使用者对强化学习作出改进。

章节目录:

section2: 介绍一个典型的自动驾驶系统及其各个组件。

section3: 对深度强化学习进行介绍,并简要讨论关键概念。

section4: 探讨在强化学习基本框架上对其进行更深层次,更加复杂的扩展。

section5: 对强化学习用于自动驾驶领域的所面临的问题提供一个概述。

section6: 介绍将强化学习部署到真实世界自动驾驶系统中所面临的挑战。

section7: 总结

成为VIP会员查看完整内容
0
60

作者Jacob Andreas是自然语言处理的研究者,研究兴趣为用语言作为更有效学习的支架和理解模型行为的探针,以及结合深度表示和离散组合性优点的结构化神经方法。近期公开发布了他的博士论文。

博士论文介绍:

本文探讨了语言结构在结构和参数化中用于语言处理和其他应用的机器学习模型的方法。作者将该模型应用于问答系统,指令跟踪,图像分类等多种任务。

作者首先介绍一类称为神经模块网络(NMN)的模型,并介绍它们在自然语言问答中的应用。NMN旨在实现同时利用深层网络的表征能力和构成问题的语言结构。我们的方法将问题分解为语言子结构,并使用这些子结构动态地从可重复使用的模块库构建网络。由此产生的复合网络是共同训练的。作者并在含有图像和结构化知识库的问答数据集上的方法评估模型。随后,作者将这种思想转移到策略学习中,研究在面对不同但相似的问题时,怎么组合策略。

成为VIP会员查看完整内容
0
28
小贴士
相关VIP内容
专知会员服务
34+阅读 · 2020年11月7日
专知会员服务
69+阅读 · 2020年10月4日
专知会员服务
44+阅读 · 2020年9月28日
专知会员服务
83+阅读 · 2020年9月7日
专知会员服务
136+阅读 · 2020年4月19日
专知会员服务
60+阅读 · 2020年2月8日
最新《分布式机器学习》论文综述最新DML进展,33页pdf
专知会员服务
57+阅读 · 2019年12月26日
相关论文
Planning From Pixels in Atari With Learned Symbolic Representations
Andrea Dittadi,Frederik K. Drachmann,Thomas Bolander
0+阅读 · 2020年12月16日
Implicit Feedback Deep Collaborative Filtering Product Recommendation System
Karthik Raja Kalaiselvi Bhaskar,Deepa Kundur,Yuri Lawryshyn
0+阅读 · 2020年12月11日
Shaolin Ji,Shige Peng,Ying Peng,Xichuan Zhang
0+阅读 · 2020年12月11日
Le Thi Hoai An,Huynh Van Ngai,Pham Dinh Tao,Luu Hoang Phuc Hau
0+阅读 · 2020年12月10日
Image Captioning: Transforming Objects into Words
Simao Herdade,Armin Kappeler,Kofi Boakye,Joao Soares
5+阅读 · 2019年6月14日
Tassilo Klein,Moin Nabi
4+阅读 · 2019年5月31日
Jungbeom Lee,Eunji Kim,Sungmin Lee,Jangho Lee,Sungroh Yoon
4+阅读 · 2019年2月27日
Jianxin Lin,Yingce Xia,Tao Qin,Zhibo Chen,Tie-Yan Liu
5+阅读 · 2018年5月1日
Igor Melnyk,Tom Sercu,Pierre L. Dognin,Jarret Ross,Youssef Mroueh
6+阅读 · 2018年4月30日
Motoya Ohnishi,Li Wang,Gennaro Notomista,Magnus Egerstedt
3+阅读 · 2018年1月29日
Top