观点 | 京东AI研究院何晓冬：如何让AI通过NLP技术理解人类？

2018 年 7 月 11 日 AI科技评论

AI 科技评论按：近年来，深度学习的发展给人工智能带来了深远的推动。而人工智能的下一个重大突破在于理解自然语言。

6月23日，中国计算机学会举办主题为“人机对话的产业应用与技术发展”的研讨会，京东AI研究院常务副院长何晓冬博士发表关于“自然语言理解技术突破”的主题报告。

在这场报告中，何晓冬博士首先简略回顾了深度学习技术对语音，语言，视觉等方面的驱动，然后着重从两个方面探讨了其在自然语言处理（NLP）方面的前沿研究，一是如何让AI通过NLP技术理解人类，如理解意图，解析语义，识别情绪，搜索推荐；二是如何让AI的结果能被人类理解接受，如文本摘要，内容生成，话题展开，情感对话等。最后，探讨了在多模态智能，长文本生成，情感和风格表达，及人机对话这些前沿方向上的最新研究进展。

AI科技评论注：何晓冬博士发表演讲

今年3月，何晓冬博士加盟京东，出任京东AI研究院常务副院长及深度学习及语音和语言实验室主任。在深度学习、自然语言处理、语音识别、计算机视觉及信息检索等方面均有重要贡献。其工作包括DSSM（深度结构语义模型/深度语义匹配模型）和图像描述机器人Caption Bot等。在加入京东之前，何晓冬博士就职于美国微软雷德蒙德研究院，担任首席研究员（Principal Researcher）及深度学习技术中心（DLTC）负责人。何晓冬博士于1996年获清华大学学士学位，1999年获中国科学院硕士学位，2003年获美国密苏里大学-哥伦比亚分校博士学位。

以下是何晓冬博士所做报告的具体内容，AI科技评论做了不改变原意的编辑整理。

深度学习发展历程

深度学习的前身，当时叫作“神经网络”，在80年代就曾经流行。在90年代，大家对神经网络的期望到达顶峰，但是发现很多问题它解决不了，比如解决一些语音识别问题，神经网络的效果并不见得比其他基于统计的模型好。

2000年代的时候，深度学习还没有被广泛认知。2008年，我和微软同事邓立在NIPS办了个研讨会，邀请到Geoff Hinton 等来介绍最新的一些深度学习方面的进展。直到2010年左右，深度神经网络模型开始在大规模语音识别上产生了大的突破。从那时候开始，大家对神经网络和深度学习有了新的信心，经过进一步推动，神经网络在2012年在图像识别上产生很大的突破，2014、2015年，神经网络在机器翻译上也有了很大的突破。之后神经网络技术在越来越多AI领域产生更大的影响。

以语音识别为例，2000年以前，语音识别发展上不停有进步，使得语音识别的错误率有一个很明显的下降趋势。

2000年开始，语音识别技术进入了一个瓶颈期，虽然每年还会有一些新的技术发明，但实际上总体来说，从2000到2010年，它在大规模测试集上的错误率基本降不下去，技术上来说这十年是基本停滞的。

2010年开始，Geoff Hinton和微软合作开始用深度学习做语音识别技术研发，2011年发现在一些大规模的语音识别数集上，可以看到20%-30%的错误率下降。更多的研究员投入以后，错误率以一个很快的速度下降。在重要的电话语音测试集switchboard上，去年微软的语音识别错误率仅为5%左右，等于一个专业的速记员水平。所以可以说，2017年开始，在switchboard 上，机器达到了人的水平。

不光是在语音上，在图像识别上深度学习也有很大的进步。大概在2009年，李飞飞团队提出了一个数据集ImageNet，从2010年开始李飞飞和她的团队成员基本每年都会举办一个挑战赛。在2010年、2011年，最好的系统在这个数据集上做识别的错误率大概是在25%左右。2012年，Hinton和他的学生第一次提出了一个深度的卷积神经网络，虽然不是他们提出来的，但是他们把这个网络做到一个很大的规模，把一些新的技术也加了进去，使得错误率一下子从25%降到16%。

2015年，我之前在微软的同事孙剑团队提出一个新的模型，把深度学习推到一个新的高度，把网络层数做到152层，错误率降到3.57%。因为人有时候犯错误，人的错误率大概在5%左右，但是机器可以做到3.5%，所以从那个时候开始，在这个特定数据集上用计算机做图像识别的能力已经比一般的人要好。

可能语音和图像我们看到了很清楚的突破，下一个期待的能否在自然语言上做到更深的突破。因为语言是人类特有的智能，很多高等动物也有很强的视觉和听觉，但是语言是人独有的智慧。所以我们也希望计算机或者人工智能有一天能够跟人一样，对语言充分理解。

自然语言处理前沿研究

说到自然语言处理，基本上可以分成两个单位：

1、AI理解人类。

像意图识别、搜索，人通过文字表达各种各样的意图和情绪。所以我们说要让AI理解人类。

语言理解第一步就是槽值提取。

如果你说一句话，计算机需要理解这句话里面你要的意图。比如你要去找一个航班，就要把城市和时间标出来。在2013年我们跟Yoshua Bengio合作，第一次把RNN成功应用于这个问题。

另外一个工作是怎么分类意图。

人说话很复杂，你说一段话，里面描述了对餐馆的意见，但是我们想从这个段子里面知道你真正的意见，为什么会这么说？这就意味着在这样一个语段里面要知道哪些句子更重要，哪些句子不那么重要。所以我们设计了一个双层的基于关注度的神经网络，叫做Hierarchical Attention Net。就是在句子内，在词这个层面先抽取最重要的那个信息，同时在句子之间抽取更重要的句子，两者联合起来，就能达到一个完整的对语段的表达。

这个语段本身讲的是他是喜欢这个餐馆，我们甚至可以把重要的词给标出来，或者重要的句子标出来，越深的颜色意味着对语段的意图理解越重要。所以不但可以解释整个语段意思是喜欢餐馆，同时它也会告诉你为什么会喜欢餐馆。

语义表征是一个核心的自然语言理解问题。

自然语言可以千变万化，但是其实有一个语义在里面。语义理解是一个很难的问题，我们希望设计一个深度神经网络，可以从原始或者比较初步的自然语言描述提取到抽象的语义特征。这个语义特征最后会形成一个语义空间，每一句话的意思都会被映射成这个空间的一个点。不同的句子描述的语义是相似的，但是字面意思不一样。我们希望这个神经网络学习以后，让他知道这两句话在空间里面是相近的。

两句话重合度非常相关但是意思完全不一样，我们也希望这个神经网络通过学习知道不同的句子虽然可能描述字面很相似，但是意思是完全不一样的，所以这是在语言理解里面核心的问题。

为了解决这个问题，我们大概在2013年提出一个模型，叫深度解构语义模型（DSSM)。它解决一个本质问题是，有几个句子，比如像跑车，可能翻译成赛车或者跑步，跑车和跑步虽然字面上的重合度更高一些，但却是非常不一样的两个概念。所以经过学习我们可以知道，跑车和赛车最后在向量空间里面向量的重合度要尽可能高；然后跑车和跑步的向量尽可能拉开，这样的话，我们可以在语义空间里面更好的分开跑车和跑步的关系。

AI科技评论注：深度结构语义模型（DSSM）

整个训练比较复杂，我们并不关心向量之间的绝对值，而是向量与向量的相对关系，只有这个相对关系定义了语义。因为语义本身是一个虚拟的概念，你可能看过这个图像，看过这个物体，但是语义从来都是在人的脑海里面的一个概念。所以所有的语义都是通过一个相对性的意思来表达，我们知道A和B很相似，所以我们通过一个相对性的训练目标来训练这个模型，从而得到这样一个语义模型。

还有另外一个重要问题，就是知识图谱。

AI科技评论注：知识图谱示意图

点代表了重要的物体和实体，线往往描述事情和事情的关系。像奥巴马有很多关系，他的出生地是夏威夷，党派是民主党，他的妻子和女儿叫什么名字。很多时候我们希望在一个连续空间里面进行知识计算，谁跟谁很相似，谁跟谁大概会有一些新的关系，以前不知道的可以挖掘出来。在2015年我有一篇文章提出怎么样把知识图谱在一个连续空间里面表示。比如我们可以用一个刚才说的语义向量来表示每个实体，同时用一个矩阵来表示实体之间的关系。这样的话，我们在计算实体A和实体B是不是存在一个特定的关系M的时候，只要算一下A的向量×B的向量，看看这个值是不是高，做一个相似度的测量。

有这样一个在连续空间里面表达的知识图谱以后，其实可以做很多别的事情。比如可以在连续空间里面推出来很多东西，我们知道奥巴马出生地在夏威夷，夏威夷在美国，我们就可以推导出来他的国籍是美国。这些都可以通过在知识空间里面计算得到。根据国籍关系和出生地关系可以算出两个矩阵之间的距离，如果这两个矩阵之间的距离足够小的话，就认为这两个关系是等价的。

有了知识图谱以后可以做很多事情，比如做知识解答，问谁是贾斯汀比伯的姐姐，就可以通过语义解析和搜索匹配得到答案。

2、让AI以人类理解的方式表达。

就是让AI产生内容，理解人类。举个例子，我们都知道人工智能可以写诗现在已经不是新闻了，人工智能还会画画，还可以做一些文本摘要，甚至可以做一个菜谱。所以我们对人工智能要求越来越高，希望人工智能不仅能理解我们说什么，还能反馈一些内容。

还有怎么样用增强学习在自然语言里面做应用。在增强学习里面AlphaGo是一个很好的例子，我们认为自然语言理解是比AlphaGo下围棋更难的问题，因为语言的空间是无限大的，围棋的空间很大，其实语言空间比围棋还要大。语言的空间是无限的，特别就行动空间而言，而围棋每一步只能在361个点上选择任意一点。

为了解决这个问题，我们不能像AlphaGo一样直接去判断，在语言对话问题里面，一个H就是机器说了一句话，或者机器选了一句话，因为这个话的表达是千变万化的，这个H是没有边界的。所以不是说我们让机器选某一个H，而是说把所有的H通过一个神经网络映射到一个语义空间，在这个语义空间里面计算什么时候应该选哪个H，最后这个H才能在一个语言的环境里面做深度学习。

人类理解跟计算机理解是不一样的，很多时候计算机的理解逻辑更像做一些匹配，包括关键字查找、语义分析。不管怎么说，在这个数据集上很多最新模型已经超过人的水平了。甚至我们还提出新的如何作迁移学习的模型，即怎么样把一个模型从一个领域迁移到另外一个领域，这样才能迅速达到很高的水平。

还有一个做的比较大的方面，是机器阅读，我们希望AI读完一篇文章以后，它能够回答关于这篇文章的任何问题。计算机要对这些前后关系有一个充分理解，然后得到一个准确的答案。这个方面也有很大的进展，斯坦福做了一个数据集，最近他们出了2.0版；最近很多企业这方面做的也不错，比如科大迅飞，谷歌，微软，阿里等。

下一步突破

1.多模态智能

多模态智能也是一个交叉性的概念，我们知道人在获得智能的时候，是通过多个来源，并不是只看图，或者只是听。

我们知道奥巴马是谁，知道他的背景，但是并不全面，看到图片以后才知道原来奥巴马长这样。所以视觉对语言知识有很大的补充。听觉也是一样，我们听到奥巴马的演讲，知道他怎么用词，对他有更加深入的理解。所有这些各个模态的东西在一起，才能导致我们对整个知识有一个深入的了解。所以基于深度学习模型，我们希望对不同模态的输入都可以逐步的把它不变的语义信号和概念提取出来，最后能够统一到一个多模态的语义空间里面，在这个语义空间里，我们可以跨模态的做一些工作，比如图文关联的推理，甚至可以做跨图文处理，甚至一个模态到一个模态的内容生成等等。

2.复杂内容的创作

这是另外一个最新的工作，即怎么样生成一首诗歌。生成诗歌也是内容创作，假设这是我们一个算法科学家给他女儿写了一首诗，输入关键字之后计算机会理解他大概想表达什么样的情绪，同时用文字来表达这个情绪，从而生成一篇诗歌。

这里面还有一个核心问题没有解决，即写作逻辑。所以这个时候就关系到怎样确立这样一个模型，使得主题、子主题的结构可以展开，并且能够在模型上得到体现，最后才能真正写出一篇前后逻辑严谨，有意义的文章出来。

3.情感智能

举一个简单例子，如何生成有情感的对话。假如一位女士买了一件T恤，如果她发到朋友圈的时候，我们可以知道这是一个女士。甚至计算机可能用一句话描述：穿着蓝色T恤的女士。但实际上这位女士发在朋友圈的图片，可能只是为了炫耀她新买的新衣服。所以这时候我希望计算机知道她的情感需求，看起来这个图片美丽的像一个天使，而不是着重于她表象的衣服和行为。所以我们希望计算机能够做的更好，能够理解用户的情感，知道用户的诉求，这样才能够说对用户有更深的理解。我们希望人工智能逐步开始对情感有更深的理解，不光是能够识别情感，而且能够配合情感进行相应表达。

4.多轮人机对话

智能技术终归回到一个问题，AI是什么？图灵在50年代的时候提出图灵测试，如果计算机和人进行大量的交谈，长时间以后，人不能判断跟他交谈的是人还是计算机，他认为计算机通过测试是有智能的。换句话说，图灵认为语言和对话代表高级的智能，如果对话上能够通过图灵测试，意味着这个计算机真的有智能。

从那以后，一代一代的科学家做了很多研究，在过去50年已经发表了很多对话系统，从声学识别、语音识别到语义理解。

最近在京东研究院我们做了一个情感对话服务机器人，客服里面最重要的一个事情就是情绪，所以需要对情绪有精准的把握。客服需要对用户有同理心，同时客服要有足够细腻的说话技巧，同时还要符合某种社会价值观。

举个例子，如果一个人打电话，他开始问他的快递为什么还没有到？这个时候我们希望AI模型可以精准的体会到这个顾客是生气的。然后机器人会进行一些安抚，表示抱歉，让他的情绪能够缓和。然后再问他具体的内容：“到底什么时候发生的？”他说：“昨天”。这个时候智能机器人就会查具体这个东西不是已经到了，最后告诉他，“系统已经显示东西到了”。这时候顾客的情绪从生气变成焦急，机器人就很迅速捕捉到他这种情绪变化，告诉他说，“不用着急，我们有保险，请您放心。”

再往下一步，显示说“您的邻居帮您签收了，并不是弄丢了，所以可以完全放心。”这个时候顾客的情绪又发生变化，他可能觉得如释重负，觉得这个事情解决了，他会说：“放心了，谢谢。”这个时候机器人也检测到愉快的情绪，祝这个客户愉快，然后把这个问题解决掉。

现在有情感支持的对话机器人已经在京东上线了，已在线上服务了将近100多万的咨询。

总结：

整个自然语言突破，我个人认为并不是要证明AI技术比人强，计算机下棋下的比人强，证明计算机前进的程度不是我们的终极目标，我们的终极目标是AI帮助人类连接这个世界。

我们生活在一个物理世界，这个世界往往需要大量的视觉信号在里面。同时，我们也生活在一个数字世界里，我们有各种的帐号，还有各种号码。此外，我们还需要跟其他的人打交道，我们有微信，看微博，看各种各样的头条，或者看各种各样的信息，去线上买东西，给客服打电话，所以跟人类打交道也是需要突破的一点。所以我们希望AI帮助每一个用户和每个消费者更好的跟自己的三个世界的人能够连接起来。

语言理解作为一个核心技术，就是能够沟通人和世界的交流，像图灵说的，只有通过对话测试才能证明机器有智能，所以语言理解和人机对话一直是推动人工智能发展的一个核心目标。我们希望机器能够更进一步的进化到高级智能和通用智能，能够自动学习和自我创新，然后迅速的在一些特定领域比人做的更好。

┏(＾0＾)┛欢迎分享，明天见！

登录查看更多

相关内容

何晓冬

关注 3

何晓冬，京东集团技术副总裁，IEEE Fellow，京东人工智能研究员常务副院长，深度学习及语音和语言实验室的负责人，并担任华盛顿大学（西雅图）、香港中文大学（深圳）和同济大学兼职教授，及中央美术学院荣誉教授。曾在IEEE、ACM、ACL、AAAI等学会的期刊和学术会议担任编委、组委或领域主席，主要从事人工智能领域，包括深度学习、自然语言处理、语音识别、计算机视觉、信息检索和多模态智能等方面的研究。

普林斯顿大学陈丹琦主讲2020课程《深度学习自然语言处理》课程，21讲带你学习NLP最新技术

专知会员服务

154+阅读 · 2020年3月29日

人类语言技术展望，中国科学院自动化研究所研究员宗成庆

专知会员服务

48+阅读 · 2020年2月15日

【CAAI 2019】自然语言与理解，苏州大学| 周国栋教授

专知会员服务

63+阅读 · 2019年12月1日

【BAAI|2019】类脑神经网络技术及其应用，鲁华祥（附pdf）

专知会员服务

31+阅读 · 2019年11月21日