本文分享了无监督学习和情景化学习的一些最新进展,其中包括一篇ICLR Oral论文的解读。
近几年,由于深度神经网络的快速发展,自然语言处理借此取得了重大突破,但同时也达到了它的发展瓶颈期。因此,研究如何让AI像人类一样去学习自然语言成为了现在研究者们最关心的问题。
近期,来自卡内基 · 梅隆大学三年级博士生杨植麟同学分享了无监督学习和情景化学习的一些最新进展,其中包括一篇ICLR Oral论文的解读。
杨植麟,卡内基梅隆大学博士三年级,师从苹果人工智能主任Ruslan S.,主要研究无监督深度学习及其在自然语言理解的应用;过去两年在ICLR/NIPS/ICML等人工智能顶会发表11篇文章(9篇一作);曾在Facebook人工智能实验室从事研究工作,本科以年级第一毕业于清华计算机系。
分享主题
让人工智能像人类一样学习自然语言:无监督学习和情景化学习的最新进展。
分享提纲
无监督学习:高秩自然语言模型(ICLR 2018);
基于生成式模型的半监督学习:利用无标注文本提升问答(ACL 2017,NIPS 2017);
情景化学习:土耳其机械勇士下降法(ICLR 2018)。
分享内容
近几年,深度神经网络在自然语言学习任务上取得众多突破,但是仍然依赖于大规模静态标注数据。与此相反,人类学习语言的时候并不需要大规模监督信号,并且可通过与环境的交互理解语言。
先来回顾一下近些年NLP的状况。NLP发展的黄金时期出现在2013年末和2014年这段时间。这段时间出现三个非常重要的技术:Word embeddings;Seq2seq;Attention。这三项技术基本奠定了2014年之后的NLP发展基础。
从2015年到现在,大家做的主要事情就是把三个技术都用上,做各种各样的变种,用在不同的任务上来检验模型效果。单从效果上来看,还是有很多突破的。但有两点需要注意,依赖监督学习可能已经做到了极限;监督学习有两个问题,一是依赖大规模标注数据集,二是依赖静态数据集。
反观人类是如何学习语言的?人类只需要非常少的监督信号,通过动态与环境交互,在环境中执行一些行为,得到一些反馈,进行学习语言。
如果让机器像人类一样学习,就需要突破监督学习的瓶颈。接下来讲的就是在这一方面的探索,怎样让机器像人类一样学习自然语言。
先看一下这个,Mastering the Dungeon:Grounded Language Learning by Mechanical Turker Descent。其中的Mastering the Dungeon是我们创造的一个游戏环境,Mechanical Turker Descent是我们发明的算法名字。
图中的两个人(Turker1和Turker2)相当于平台上的两个用户。他们每个人负责训练一个dragon,如果dragon赢了,对应的人会获得奖励。这样Turker就会受到激励,会给dragon更好的样本学习,让它在比赛中击败其他dragon。
下图反应了dragon在游戏环境中具体是如何交互学习的,以及具体的游戏环境是怎么样的。
这个交互学习算法的名字叫Mechanical Turker Descent。第一步,每一个Turker会给dragon一些训练数据,第二步,用数据集训练出一个模型。第三步,这些模型会放在其他数据集上交互验证,每个模型会得到分数,获得高分的Turker会获得奖励。第四步,所有的数据将合并起来,进入下一轮,直到训练出比较好的agent。
这个算法其实既有比赛,又有合作。Turker为了赢得奖励,所以他们之间相互比赛,促使他们提供更好的数据给dragon。同时他们又是合作的,在每一轮结束后都会把数据合并起来进入下一轮,这些数据在下一轮都会共享。
这样的算法有四个优点:
第一,避免数据样本太简单,因为每个Turker都是在对方的数据集上做验证,如果太简单,就会导致对方的分数比自己高。
第二,避免数据样本太难,如果样本太难,就不可能训练出模型,同样不能赢得比赛。
第三,难易度适中的数据可以动态适应模型学习的能力。
第四,很难通过作弊获得好成绩。
游戏环境和任务设置
实验结果
通过实验得出几点结论,实验中的交互学习算法确实比传统通过标记数据的静态学习效果要好。
limit是指限制Turker每一轮给的训练数据数量。在给同样奖励的情况下,发现如果不限制Turker,他会多给dragon百分之三十的数据,最终的模型表现效果也较好。
在模型有反馈和没有反馈的两种不同情况下,其性能表现也有很大的差别。如果把模型反馈去掉,所有的指标都会下降,说明动态调整训练数据的动态分布是非常重要的。
接下来杨植麟同学介绍一篇ICLR Oral论文的解读。论文题目为:Breaking the Softmax Bottleneck A High-Rank RNN Language Model。
我们首先证明了softmax不是太好,继而提出了混合softmax,(mixture of softmaxes)的方法,先算K softmaxes,用weighted sum得到最后的概率。
虽然很简单,但在大家常用的语言模型数据集中,取得了非常好的结果。
小结
未来最重要的两个研究方向,一个是无监督学习,另一个是language grounding。
无监督学习可以学习有价值的和可传递的特征表示,可以改善低资源和高资源任务;可以用于监督或无监督任务的元学习。language grounding可以提供足够复杂的环境,是一种非常有效的学习算法。
扫描二维码,即刻报名参与IV2018
📚往期文章推荐
🔗张首晟院士最新演讲:放眼全球,人工智能、量子计算是整个人类的问题
🔗深度 | 斯坦福大学李飞飞等人谈AI医疗:病床边的计算机视觉
🔗重要突破!Nature子刊:中国开创最新存储技术,比现在U盘快10000倍!
🔗中国学者独立完成首篇《科学》机器人子刊论文!可变色的心脏芯片!
🔗中国工程院院士戴琼海:人工智能已进入到脑科学在内的生物智能阶段
🔗中科院自动化所团队提出新方法,让AI掌握《星际争霸》微操作(内附论文作者亲自讲解)
德先生公众号 | 往期精选
在公众号会话位置回复以下关键词,查看德先生往期文章!
人工智能|机器崛起|区块链|名人堂
虚拟现实|无人驾驶|智能制造|无人机
科研创新|网络安全|数据时代|人机大战
……
更多精彩文章正在赶来,敬请期待!
点击“阅读原文”,移步求知书店,可查阅选购德先生推荐书籍。