元学习—Meta Learning的兴起

2019 年 10 月 19 日 专知
元学习—Meta Learning的兴起

【导读】元学习描述了训练深度神经网络相关的更高级别的元素。在深度学习文献中,“元学习”一词经常表示神经网络架构的自动化设计,经常引用“ AutoML”,“少量学习”或“神经架构搜索”。OpenAI的魔方机器人手的成功源于诸如“通过梯度下降学习如何通过梯度下降学习”之类的可笑标题的论文,证明了该想法的成熟。元学习是推动深度学习和人工智能技术发展的最有希望的范例。


OpenAI通过展示经过强化学习训练的机器人手的突破性功能,使AI世界变得火热了。该成功基于2018年7月提出的一项非常类似的研究,该研究要求机械手将块定位在与视觉提示匹配的配置中。元数据学习算法控制模拟中的训练数据分布,即自动域随机化(ADR),从而推动了从块定向到解决魔方的演变。


域随机化—数据增强

域随机化是一种用于解决Sim2Real传输的数据扩充问题的算法。函数逼近(和深度学习)的核心功能是将其从训练中学到的知识推广到前所未有的测试数据。深度卷积神经网络在进行模拟图像训练(显左下方图)到真实视觉数据(右下方图)时,无需进行特殊修改就不会泛化。


当然,有两种方法可以使模拟数据分布与实际数据分布保持一致。苹果研究人员开发的一种这样的方法称为SimGAN。SimGAN使用对抗损失来训练生成对抗网络的生成器,以使模拟图像看起来尽可能逼真,而鉴别器则将图像归类为真实或模拟数据集。该研究报告在眼睛注视估计和手势姿势估计方面取得了积极成果。另一种方法是使模拟数据尽可能多样化,而与真实性相反。


后一种方法称为域随机化。下图来自Tobin等人在2017年的论文中很好地说明了这一想法:


域随机化似乎是弥合Sim2Real差距的关键,在进行模拟训练时,允许深度神经网络将其推广到真实数据。与大多数算法不同,域随机化带有许多要调整的参数。下图显示了块的颜色,环境的光照和阴影的大小的随机性,仅举几例。这些随机环境特征中的每一个都具有一个从下到上的区间以及某种采样分布。例如,在对随机环境进行采样时,该环境具有非常明亮的照明的概率是多少?


在OpenAI 最初的研究中,使用机械手实现了块定位,在实验之前,对域随机数据课程进行了手动编码。这种域随机化超越了视觉世界,使物理模拟器中的组件随机化,从而产生了使机械手能够灵活灵巧地移动的策略。与视觉随机化的想法类似,这些物理随机化包括诸如立方体的大小/质量和手指在机器人手中的摩擦之类的尺寸。


从Dactyl到Rubik's Cube解算器的关键是,定义随机化的强度是自动的,而不是手动设计的,这在ADR算法的以下几行中明确定义:


设计自己的数据的AI

由Uber AI Labs的研究人员开发的配对开放式开拓者(POET)算法是设计自己的数据的AI最好的例子之一。


POET通过同时优化代理和步行学习环境来训练双足步行代理。POET与OpenAI的rubik多维数据集求解器不同,它使用进化算法来维护步行者和环境。具有主体和环境的种群的结构是构建本研究复杂性演变的关键。尽管与使用基于群体的学习来适应一组智能体相比,使用强化学习来训练单个智能体,但是POET和自动域随机化非常相似。他们都以自动化的方式开发了挑战性不断增长的训练数据集。Bipedal的步行环境不会作为手动编码的功能发生变化,而是由于步行者在不同环境中的表演数量众多而产生的结果,表明何时该是时候应对地形挑战了。


数据还是模型?

元学习的研究通常集中在数据和模型架构上,但元学习优化器之类的例外似乎仍属于模型优化的范畴。诸如自动域随机化之类的数据空间中的元学习已经以数据增强的形式进行了大量研究。


尽管我们已经看到了物理数据也可以进行扩充和随机化,但在图像数据的上下文中最容易理解数据增强。这些图像增强通常包括水平翻转和小幅度的旋转或平移。这种增强在任何计算机视觉管道(例如图像分类,对象检测或超分辨率)中都是典型的。


Curriculum Learning是另一个数据级别的优化,它涉及将数据呈现给学习模型的顺序。例如,从一个简单的例子(例如2 + 2 = 4)开始教一个学生,然后再引入更困难的想法(例如2³= 8)。Curriculum Learning的元学习控制器研究如何根据感知到的困难和Hacohen和Weinshall的最新研究在ICML 2019大会上展示了这一点(如下所示)。


神经架构搜索或元学习模型通常比数据级优化受到更多关注。深度学习研究的趋势极大地激发了这一动机。将基础AlexNet架构扩展到ResNet架构,可以明显地提高性能,该基础架构将在大型GPU计算的大型数据集上训练的深度卷积网络的使用率先开创了。ResNet通过DenseNet等手动设计得到进一步扩展,然后被诸如AmoebaNet和EfficientNet之类的元学习技术所超越。图像分类基准测试进展的时间表可以在paperswithcode.com上找到。


元学习神经体系结构试图描述一种可能的体系结构,然后根据一个或多个客观指标来寻找最佳的体系结构。


高级元学习者

神经体系结构搜索采用了广泛的算法来搜索体系结构,随机搜索,网格搜索,贝叶斯优化,神经进化,强化学习和差异搜索。与OpenAI的自动域随机化技术相比,这些搜索算法都相对复杂。似乎可以通过高级搜索算法来改进自动域随机化的想法,例如,基于人口的搜索在UC Berkeley的研究人员的数据增强或Google的AutoAugment中被证明是有用的。


元学习表现力如何?

神经体系结构搜索中经常提到的元学习的局限性之一是搜索空间的限制。神经体系结构搜索从对可能的体系结构的手动设计编码开始。这种手动编码自然限制了搜索可能的发现。但是,需要进行权衡以使搜索完全可计算。


当前的架构搜索将神经架构视为有向无环图(DAG),并尝试优化节点之间的连接。诸如Gaier和Ha的“Weight Agnostic Neural Networks”以及Xie等人的“Exploring Randomly Wired Neural Networks for Image Recognition”等论文。表明构建DAG神经体系结构是复杂的,尚未得到很好的理解。


有趣的问题是,神经体系结构搜索何时能够优化节点上的操作,它们之间的连接,然后能够自由发现诸如新颖的激活函数,优化器或诸如批处理规范化之类的规范化技术。


考虑元学习控制器的抽象程度是很有趣的。例如,OpenAI的Rubik立方体求解器本质上具有3个“智能”组件,一个象征性的Rubik立方体求解器,一个视觉模型和一个用于操纵机器人手的控制器网络。元学习控制器是否足够聪明,可以理解这种模块化并设计由Gary Marcus最近推广的符号和深度学习系统之间的混合系统?


元学习数据扩充也受到很大限制。大多数数据扩充搜索(甚至是自动域随机化)都被约束为元学习控制器可用的一组转换。这些转换可能包括模拟中图像的亮度或阴影的强度。增加数据增强自由度的一个有趣机会是将这些控制器与能够探索非常独特的数据点的生成模型相结合。这些生成模型可以设计狗和猫的新图像,而不是旋转现有的图像或使图像变暗/变亮。尽管非常有趣,但似乎像BigGAN或VQ-VAE-2这样的最新生成模型无法用于ImageNet分类中的数据增强。


迁移与元学习

“元学习”通常用于描述传输和少量学习的功能,与“ AutoML”用于描述模型或数据集的优化方法不同。这种定义与通过自动域随机化解决的Sim2Real的域自适应任务非常吻合。但是,此定义还描述了学习过程,例如从ImageNet分类转换到识别钢缺陷。

魔方解算器的一个有趣结果是能够适应扰动。例如,尽管将橡胶手套戴在手上,手指绑在一起并完全遮盖立方体,但求解器仍能够继续操作(视觉模型必须完全受损,因此必须由Giiker立方体的传感器来进行感测)。这种迁移元学习是策略网络中用于训练机械手控制的LSTM层的结果。我认为,与AutoML优化相比,这种“元学习”的使用更具有记忆增强网络的特性。我认为,这表明了统一元学习和确定该术语单一定义的难度。

结论


由于机器人手协调性的出色显示,Rubik的多维数据集求解器的成功显然令人信服。然而,这项研究中更有趣的部分是引擎盖下的元学习数据随机化。这是一种在学习的同时设计其训练数据的算法。在Jeff Clune的AI-GA中描述的这种范式包含了元学习体系结构,元学习学习算法本身以及生成有效的学习环境的算法,对于深度学习和人工智能的发展是巨大的机会。


原文链接:

https://towardsdatascience.com/the-rise-of-meta-learning-9c61ffac8564

-END-
专 · 知


专知,专业可信的人工智能知识分发,让认知协作更快更好!欢迎登录www.zhuanzhi.ai,注册登录专知,获取更多AI知识资料!
欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程视频资料和与专家交流咨询
请加专知小助手微信(扫一扫如下二维码添加), 获取专知VIP会员码 ,加入专知人工智能主题群,咨询技术商务合作~
点击“阅读原文”,了解注册成为 专知VIP会
登录查看更多
37

相关内容

Meta Learning,元学习,也叫 Learning to Learn(学会学习)。是继Reinforcement Learning(增强学习)之后又一个重要的研究分支。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等

导航是移动机器人所需要的最基本的功能之一,允许它们从一个源穿越到一个目的地。传统的办法严重依赖于预先确定的地图的存在,这种地图的取得时间和劳力都很昂贵。另外,地图在获取时是准确的,而且由于环境的变化会随着时间的推移而退化。我们认为,获取高质量地图的严格要求从根本上限制了机器人系统在动态世界中的可实现性。本论文以无地图导航的范例为动力,以深度强化学习(DRL)的最新发展为灵感,探讨如何开发实用的机器人导航。

DRL的主要问题之一是需要具有数百万次重复试验的不同实验设置。这显然是不可行的,从一个真实的机器人通过试验和错误,所以我们反而从一个模拟的环境学习。这就引出了第一个基本问题,即弥合从模拟环境到真实环境的现实差距,该问题将在第3章讨论。我们把重点放在单眼视觉避障的特殊挑战上,把它作为一个低级的导航原语。我们开发了一种DRL方法,它在模拟世界中训练,但可以很好地推广到现实世界。

在现实世界中限制移动机器人采用DRL技术的另一个问题是训练策略的高度差异。这导致了较差的收敛性和较低的整体回报,由于复杂和高维搜索空间。在第4章中,我们利用简单的经典控制器为DRL的局部导航任务提供指导,避免了纯随机的初始探索。我们证明,这种新的加速方法大大减少了样本方差,并显著增加了可实现的平均回报。

我们考虑的最后一个挑战是无上限导航的稀疏视觉制导。在第五章,我们提出了一种创新的方法来导航基于几个路点图像,而不是传统的基于视频的教学和重复。我们证明,在模拟中学习的策略可以直接转移到现实世界,并有能力很好地概括到不可见的场景与环境的最小描述。

我们开发和测试新的方法,以解决障碍规避、局部引导和全球导航等关键问题,实现我们的愿景,实现实际的机器人导航。我们将展示如何将DRL作为一种强大的无模型方法来处理这些问题

成为VIP会员查看完整内容
0
55

本文综述了元学习在图像分类、自然语言处理和机器人技术等领域的应用。与深度学习不同,元学习使用较少的样本数据集,并考虑进一步改进模型泛化以获得更高的预测精度。我们将元学习模型归纳为三类: 黑箱适应模型、基于相似度的方法模型和元学习过程模型。最近的应用集中在将元学习与贝叶斯深度学习和强化学习相结合,以提供可行的集成问题解决方案。介绍了元学习方法的性能比较,并讨论了今后的研究方向。

成为VIP会员查看完整内容
0
197

【导读】元学习旨在学会学习,是当下研究热点之一。最近来自爱丁堡大学的学者发布了关于元学习最新综述论文《Meta-Learning in Neural Networks: A Survey》,值得关注,详述了元学习体系,包括定义、方法、应用、挑战,成为不可缺少的文献。

近年来,元学习领域,或者说“学会学习的学习”,引起了人们极大的兴趣。与传统的人工智能方法(使用固定的学习算法从头开始解决给定的任务)不同,元学习的目的是改进学习算法本身,考虑到多次学习的经验。这个范例提供了一个机会来解决深度学习的许多传统挑战,包括数据和计算瓶颈,以及泛化的基本问题。在这项综述中,我们描述了当代元学习的景观。我们首先讨论元学习的定义,并将其定位于相关领域,如迁移学习、多任务学习和超参数优化。然后,我们提出了一个新的分类法,对元学习方法的空间进行了更全面的细分。我们综述了元学习的一些有前途的应用和成功案例,包括小样本学习、强化学习和体系架构搜索。最后,我们讨论了突出的挑战和未来研究的有希望的领域。

https://arxiv.org/abs/2004.05439

概述

现代机器学习模型通常是使用手工设计的固定学习算法,针对特定任务从零开始进行训练。基于深度学习的方法在许多领域都取得了巨大的成功[1,2,3]。但是有明显的局限性[4]。例如,成功主要是在可以收集或模拟大量数据的领域,以及在可以使用大量计算资源的领域。这排除了许多数据本质上是稀有或昂贵的[5],或者计算资源不可用的应用程序[6,7]。

元学习提供了另一种范式,机器学习模型可以在多个学习阶段获得经验——通常覆盖相关任务的分布——并使用这些经验来改进未来的学习性能。这种“学会学习”[8]可以带来各种好处,如数据和计算效率,它更适合人类和动物的学习[9],其中学习策略在一生和进化时间尺度上都得到改善[10,9,11]。机器学习在历史上是建立在手工设计的特征上的模型,而特征的选择往往是最终模型性能的决定因素[12,13,14]。深度学习实现了联合特征和模型学习的承诺[15,16],为许多任务提供了巨大的性能改进[1,3]。神经网络中的元学习可以看作是集成联合特征、模型和算法学习的下一步。神经网络元学习有着悠久的历史[17,18,8]。然而,它作为推动当代深度学习行业前沿的潜力,导致了最近研究的爆炸性增长。特别是,元学习有可能缓解当代深度学习[4]的许多主要批评,例如,通过提供更好的数据效率,利用先验知识转移,以及支持无监督和自主学习。成功的应用领域包括:小样本图像识别[19,20]、无监督学习[21]、数据高效[22,23]、自导向[24]强化学习(RL)、超参数优化[25]和神经结构搜索(NAS)[26, 27, 28]。

在文献中可以找到许多关于元学习的不同观点。特别是由于不同的社区对这个术语的使用略有不同,所以很难定义它。与我们[29]相关的观点认为,元学习是管理“没有免费午餐”定理[30]的工具,并通过搜索最适合给定问题或问题族的算法(归纳偏差)来改进泛化。然而,从广义上来说,这个定义可以包括迁移、多任务、特征选择和模型集成学习,这些在今天通常不被认为是元学习。另一个关于元学习[31]的观点广泛地涵盖了基于数据集特性的算法选择和配置技术,并且很难与自动机器学习(AutoML)[32]区分开来。在这篇论文中,我们关注当代的神经网络元学习。我们将其理解为算法或归纳偏差搜索,但重点是通过端到端学习明确定义的目标函数(如交叉熵损失、准确性或速度)来实现的。

因此,本文提供了一个独特的,及时的,最新的调查神经网络元学习领域的快速增长。相比之下,在这个快速发展的领域,以往的研究已经相当过时,或者关注于数据挖掘[29、33、34、35、36、37、31]、自动[32]的算法选择,或者元学习的特定应用,如小样本学习[38]或神经架构搜索[39]。

我们讨论元学习方法和应用。特别是,我们首先提供了一个高层次的问题形式化,它可以用来理解和定位最近的工作。然后,我们在元表示、元目标和元优化器方面提供了一种新的方法分类。我们调查了几个流行和新兴的应用领域,包括少镜头、强化学习和架构搜索;并对相关的话题如迁移学习、多任务学习和自动学习进行元学习定位。最后,我们讨论了尚未解决的挑战和未来研究的领域。

未来挑战:

-元泛化 元学习在不同任务之间面临着泛化的挑战,这与传统机器学习中在不同实例之间进行泛化的挑战类似。

  • 任务分布的多模态特性
  • 任务族
  • 计算代价
  • 跨模态迁移和异构任务

总结

元学习领域最近出现了快速增长的兴趣。这带来了一定程度的混乱,比如它如何与邻近的字段相关联,它可以应用到什么地方,以及如何对它进行基准测试。在这次综述中,我们试图通过从方法学的角度对这一领域进行彻底的调查来澄清这些问题——我们将其分为元表示、元优化器和元目标的分类;从应用的角度来看。我们希望这项调查将有助于新人和实践者在这个不断增长的领域中定位自己,并强调未来研究的机会。

成为VIP会员查看完整内容
0
174

主题: A New Meta-Baseline for Few-Shot Learning

摘要: 近年来,元学习已经成为小样本学习的流行框架,其目标是从少拍分类任务的集合中学习模型。虽然提出了越来越多的新颖元学习模型,但我们的研究发现了被忽视的简单基准。我们通过在所有基类上预先训练分类器,并在基于最近质心的少数镜头分类算法上进行元学习,提出了一种Meta-Baseline方法,该方法以较大的优势胜过了最新的方法。为什么这个简单的方法这么好?在元学习阶段,我们观察到在基础类的未见任务上更好地推广的模型在新型类任务上的性能可能会下降,这表明存在潜在的客观差异。我们发现预训练和从预训练的分类器继承良好的几次快照分类法对于元基线都很重要,这可能有助于模型更好地利用具有更强可传递性的预训练表示。此外,我们研究了何时需要在此元基线中进行元学习。我们的工作为该领域建立了一个新的基准,并为进一步了解元学习框架中的几次学习现象提供了启示。

成为VIP会员查看完整内容
0
48

元学习已被提出作为一个框架来解决具有挑战性的小样本学习设置。关键的思想是利用大量相似的小样本任务,以学习如何使基学习者适应只有少数标记的样本可用的新任务。由于深度神经网络(DNNs)倾向于只使用少数样本进行过度拟合,元学习通常使用浅层神经网络(SNNs),因此限制了其有效性。本文提出了一种新的学习方法——元转移学习(MTL)。具体来说,“meta”是指训练多个任务,“transfer”是通过学习每个任务的DNN权值的缩放和变换函数来实现的。此外,我们还介绍了作为一种有效的MTL学习课程的困难任务元批处理方案。我们使用(5类,1次)和(5类,5次)识别任务,在两个具有挑战性的小样本学习基准上进行实验:miniImageNet和Fewshot-CIFAR100。通过与相关文献的大量比较,验证了本文提出的HT元批处理方案训练的元转移学习方法具有良好的学习效果。消融研究还表明,这两种成分有助于快速收敛和高精度。

地址:

https://arxiv.org/abs/1812.02391

代码:

https://github.com/yaoyao-liu/meta-transfer-learning

成为VIP会员查看完整内容
0
121

简介: 人们在阅读文章时,可以识别关键思想,作出总结,并建立文章中的联系以及对其他需要理解的内容等方面都做得很出色。深度学习的最新进展使计算机系统可以实现类似的功能。用于自然语言处理的深度学习可教您将深度学习方法应用于自然语言处理(NLP),以有效地解释和使用文章。在这本书中,NLP专家Stephan Raaijmakers提炼了他对这个快速发展的领域中最新技术发展的研究。通过详细的说明和丰富的代码示例,您将探索最具挑战性的NLP问题,并学习如何通过深度学习解决它们!

自然语言处理是教计算机解释和处理人类语言的科学。最近,随着深度学习的应用,NLP技术已跃升至令人兴奋的新水平。这些突破包括模式识别,从上下文中进行推断以及确定情感语调,从根本上改善了现代日常便利性,例如网络搜索,以及与语音助手的交互。他们也在改变商业世界!

目录:

  • NLP和深度学习概述
  • 文本表示
  • 词嵌入
  • 文本相似性模型
  • 序列NLP
  • 语义角色标签
  • 基于深度记忆的NLP
  • 语言结构
  • 深度NLP的超参数

1深度NLP学习

  • 1.1概述
  • 1.2面向NLP的机器学习方法
  • 1.2.1感知机
  • 1.2.2 支持向量机
  • 1.2.3基于记忆的学习
  • 1.3深度学习
  • 1.4语言的向量表示
  • 1.4.1表示向量
  • 1.4.2运算向量
  • 1.5工具
  • 1.5.1哈希技巧
  • 1.5.2向量归一化
  • 1.6总结

2 深度学习和语言:基础知识

  • 2.1深度学习的基本构架
  • 2.1.1多层感知机
  • 2.1.2基本运算符:空间和时间
  • 2.2深度学习和NLP
  • 2.3总结

3文字嵌入

  • 3.1嵌入
  • 3.1.1手工嵌入
  • 3.1.2学习嵌入
  • 3.2word2vec
  • 3.3doc2vec
  • 3.4总结

4文字相似度

  • 4.1问题
  • 4.2数据
  • 4.2.1作者归属和验证数据
  • 4.3数据表示
  • 4.3.1分割文件
  • 4.3.2字的信息
  • 4.3.3子字集信息
  • 4.4相似度测量模型
  • 4.5.1多层感知机
  • 4.5.2CNN
  • 4.6总结

5序列NLP和记忆

  • 5.1记忆和语言
  • 5.1.1问答
  • 5.2数据和数据处理
  • 5.3序列模型的问答
  • 5.3.1用于问答的RNN
  • 5.3.2用于问答的LSTM
  • 5.3.3问答的端到端存储网络
  • 5.4总结

6NLP的6种情景记忆

  • 6.1序列NLP的记忆网络
  • 6.2数据与数据处理
  • 6.2.1PP附件数据
  • 6.2.2荷兰小数据
  • 6.2.3西班牙语词性数据
  • 6.3监督存储网络
  • 6.3.1PP连接
  • 6.3.2荷兰小商品
  • 6.3.3西班牙语词性标记
  • 6.4半监督存储网络
  • 6.5半监督存储网络:实验和结果
  • 6.6小结
  • 6.7代码和数据

7注意力机制

  • 7.1神经注意力机制
  • 7.2数据
  • 7.3静态注意力机制:MLP
  • 7.4暂态注意力机制:LSTM
  • 7.4.1实验
  • 7.5小结

8多任务学习

  • 8.1简介
  • 8.2数据
  • 8.3.1数据处理
  • 8.3.2硬参数共享
  • 8.3.3软参数共享
  • 8.3.4混合参数共享
  • 8.4主题分类
  • 8.4.1数据处理
  • 8.4.2硬参数共享
  • 8.4.3软参数共享
  • 8.4.4混合参数共享
  • 8.5词性和命名实体识别数据
  • 8.5.1数据处理
  • 8.5.2硬参数共享
  • 8.5.3软参数共享
  • 8.5.4混合参数共享
  • 8.6结论

附录

附录A:NLP

附录B:矩阵代数

附录C:超参数估计和分类器性能评估

成为VIP会员查看完整内容
0
40

Deep reinforcement learning suggests the promise of fully automated learning of robotic control policies that directly map sensory inputs to low-level actions. However, applying deep reinforcement learning methods on real-world robots is exceptionally difficult, due both to the sample complexity and, just as importantly, the sensitivity of such methods to hyperparameters. While hyperparameter tuning can be performed in parallel in simulated domains, it is usually impractical to tune hyperparameters directly on real-world robotic platforms, especially legged platforms like quadrupedal robots that can be damaged through extensive trial-and-error learning. In this paper, we develop a stable variant of the soft actor-critic deep reinforcement learning algorithm that requires minimal hyperparameter tuning, while also requiring only a modest number of trials to learn multilayer neural network policies. This algorithm is based on the framework of maximum entropy reinforcement learning, and automatically trades off exploration against exploitation by dynamically and automatically tuning a temperature parameter that determines the stochasticity of the policy. We show that this method achieves state-of-the-art performance on four standard benchmark environments. We then demonstrate that it can be used to learn quadrupedal locomotion gaits on a real-world Minitaur robot, learning to walk from scratch directly in the real world in two hours of training.

0
6
下载
预览

Meta-learning has been proposed as a framework to address the challenging few-shot learning setting. The key idea is to leverage a large number of similar few-shot tasks in order to learn how to adapt a base-learner to a new task for which only a few labeled samples are available. As deep neural networks (DNNs) tend to overfit using a few samples only, meta-learning typically uses shallow neural networks (SNNs), thus limiting its effectiveness. In this paper we propose a novel few-shot learning method called meta-transfer learning (MTL) which learns to adapt a deep NN for few shot learning tasks. Specifically, "meta" refers to training multiple tasks, and "transfer" is achieved by learning scaling and shifting functions of DNN weights for each task. In addition, we introduce the hard task (HT) meta-batch scheme as an effective learning curriculum for MTL. We conduct experiments using (5-class, 1-shot) and (5-class, 5-shot) recognition tasks on two challenging few-shot learning benchmarks: miniImageNet and Fewshot-CIFAR100. Extensive comparisons to related works validate that our meta-transfer learning approach trained with the proposed HT meta-batch scheme achieves top performance. An ablation study also shows that both components contribute to fast convergence and high accuracy.

0
6
下载
预览

We introduce an approach for deep reinforcement learning (RL) that improves upon the efficiency, generalization capacity, and interpretability of conventional approaches through structured perception and relational reasoning. It uses self-attention to iteratively reason about the relations between entities in a scene and to guide a model-free policy. Our results show that in a novel navigation and planning task called Box-World, our agent finds interpretable solutions that improve upon baselines in terms of sample complexity, ability to generalize to more complex scenes than experienced during training, and overall performance. In the StarCraft II Learning Environment, our agent achieves state-of-the-art performance on six mini-games -- surpassing human grandmaster performance on four. By considering architectural inductive biases, our work opens new directions for overcoming important, but stubborn, challenges in deep RL.

0
6
下载
预览
小贴士
相关资讯
机器也能学会如何学习?——元学习介绍
AINLP
15+阅读 · 2019年9月22日
ICML2019《元学习》教程与必读论文列表
专知
36+阅读 · 2019年6月16日
CVPR 2018 最酷的十篇论文
AI研习社
4+阅读 · 2019年2月13日
Meta-Learning 元学习:学会快速学习
专知
23+阅读 · 2018年12月8日
【深度】可解释性与deep learning的发展
机器学习研究会
6+阅读 · 2017年10月15日
2017上半年无监督特征学习研究成果汇总
全球人工智能
6+阅读 · 2017年9月12日
相关论文
Yingtian Zou,Jiashi Feng
7+阅读 · 2019年4月19日
Yu Cheng,Mo Yu,Xiaoxiao Guo,Bowen Zhou
12+阅读 · 2019年1月26日
Tuomas Haarnoja,Aurick Zhou,Sehoon Ha,Jie Tan,George Tucker,Sergey Levine
6+阅读 · 2018年12月26日
Meta-Transfer Learning for Few-Shot Learning
Qianru Sun,Yaoyao Liu,Tat-Seng Chua,Bernt Schiele
6+阅读 · 2018年12月6日
Deep Reinforcement Learning: An Overview
Yuxi Li
12+阅读 · 2018年11月26日
Jingkang Wang,Yang Liu,Bo Li
3+阅读 · 2018年10月5日
Relational Deep Reinforcement Learning
Vinicius Zambaldi,David Raposo,Adam Santoro,Victor Bapst,Yujia Li,Igor Babuschkin,Karl Tuyls,David Reichert,Timothy Lillicrap,Edward Lockhart,Murray Shanahan,Victoria Langston,Razvan Pascanu,Matthew Botvinick,Oriol Vinyals,Peter Battaglia
6+阅读 · 2018年6月28日
Chung-Wei Lee,Wei Fang,Chih-Kuan Yeh,Yu-Chiang Frank Wang
7+阅读 · 2018年5月26日
Qingyao Ai,Vahid Azizi,Xu Chen,Yongfeng Zhang
10+阅读 · 2018年5月9日
Ignasi Clavera,Anusha Nagabandi,Ronald S. Fearing,Pieter Abbeel,Sergey Levine,Chelsea Finn
7+阅读 · 2018年3月30日
Top