干货 | CMU博士生杨植麟：如何让AI像人类一样学习自然语言？

2018 年 4 月 12 日 AI科技评论 杨文

本文分享了无监督学习和情景化学习的一些最新进展，其中包括一篇 ICLR Oral 论文的解读。

AI 科技评论按：近几年，由于深度神经网络的快速发展，自然语言处理借此取得了重大突破，但同时也达到了它的发展瓶颈期。因此，研究如何让 AI 像人类一样去学习自然语言成为了现在研究者们最关心的问题。

在近期 GAIR 大讲堂上，来自卡内基 · 梅隆大学三年级博士生杨植麟同学分享了无监督学习和情景化学习的一些最新进展，其中包括一篇 ICLR Oral 论文的解读，点击阅读原文可查看完整视频回放。

杨植麟，卡内基梅隆大学博士三年级，师从苹果人工智能主任 Ruslan S.，主要研究无监督深度学习及其在自然语言理解的应用；过去两年在 ICLR/NIPS/ICML 等人工智能顶会发表 11 篇文章 (9 篇一作)；曾在 Facebook 人工智能实验室从事研究工作，本科以年级第一毕业于清华计算机系。

分享主题

让人工智能像人类一样学习自然语言：无监督学习和情景化学习的最新进展

分享提纲

无监督学习：高秩自然语言模型 (ICLR 2018)

基于生成式模型的半监督学习：利用无标注文本提升问答 (ACL 2017, NIPS 2017)

情景化学习：土耳其机械勇士下降法 (ICLR 2018)

分享内容

近几年，深度神经网络在自然语言学习任务上取得众多突破，但是仍然依赖于大规模静态标注数据。与此相反，人类学习语言的时候并不需要大规模监督信号，并且可通过与环境的交互理解语言。

先来回顾一下近些年 NLP 的状况。NLP 发展的黄金时期出现在 2013 年末和 2014 年这段时间。这段时间出现三个非常重要的技术：Word embeddings；Seq2seq；Attention，这三项技术基本奠定了 2014 年之后的 NLP 发展基础。

从 2015 年到现在，大家做的主要事情就是把三个技术都用上，做各种各样的变种，用在不同的任务上来检验模型效果。单从效果上来看，还是有到很多突破的。但有两点需要注意，依赖监督学习可能已经做到了极限；监督学习有两个问题，一是依赖大规模标注数据集，二是依赖静态数据集。

反观人类是如何学习语言的？人类只需要非常少的监督信号，通过动态与环境交互，在环境中执行一些行为，得到一些反馈，进行学习语言。

如果让机器像人类一样学习，就需要突破监督学习的瓶颈。接下来讲的就是在这一方面的探索，怎样让机器像人类一样学习自然语言。

先看一下这个，Mastering the Dungeon : Grounded Language Learning by Mechanical Turker Descent。其中的

Mastering the Dungeon 是我们创造的一个游戏环境，Mechanical Turker Descent 是我们发明的算法名字。

图中的两个人（Turker1 和 Turker2）相当于平台上的两个用户。他们每个人负责训练一个 dragon，如果 dragon 赢了，对应的人会获得奖励。这样 Turker 就会受到激励，会给 dragon 更好的样本学习，让它在比赛中击败其他 dragon。

下图反应了 dragon 在游戏环境中具体是如何交互学习的，以及具体的游戏环境是怎么样的。

这个交互学习算法的名字叫 Mechanical Turker Descent。第一步，每一个 Turker 会给 dragon 一些训练数据，第二步，用数据集训练出一个模型。第三步，这些模型会放在其他数据集上交互验证，每个模型会得到分数，获得高分的 Turker 会获得奖励。第四步，所有的数据将合并起来，进入下一轮，直到训练出比较好的 agent。

这个算法其实既有比赛，又有合作。Turker 为了赢得奖励，所以他们之间相互比赛，促使他们提供更好的数据给 dragon。同时他们又是合作的，在每一轮结束后都会把数据合并起来进入下一轮，这些数据在下一轮都会共享。