观点 | AI 时代，为何“懂”语言者得天下？

2017 年 12 月 12 日 微软丹棱街5号 沈向洋

丹棱君有话说：语言理解分为三个不同的层次：表述、对话、意境。表述指的是机器具备文字描述的能力；对话能力包括，不仅能回答问题，还能围绕关键点生成问题；而意境则是让机器理解和表达诸如隐喻在内的意境的能力。目前，微软认知服务中的 Image Caption，通过深度结构语义模型把图像和文字表示成语义空间内的向量，进行语义相似度计算，让机器具备给图片生成标题的文字描述的能力。基于微软提出的情感计算框架，以情商为主攻方向，打造具备完整感官和知识图谱的对话式人工智能微软小冰，与人类之间发生的最长一次单人连续对话，达到历史性的 7151 轮。此外，小冰还能看图作诗写出充满人情味和意境的文字。微软是如何在自然语言的表述、对话、意境三个能力层次上取得了研发进展？基于自然语言理解的对话式人工智能产品又有哪些布局？有请微软全球执行副总裁沈向洋博士~

人工智能近年来的发展近乎神速，这主要是得益于“两大一精”的进步和突破：大计算、大数据、精准模型。人工智能其实是一个非常宽泛的概念，大致上我们可以把它分为两个研究方向，感知和认知。感知中的视觉和语言进展飞速，但认知中的语言理解发展速度有限。

我们在感知研究方向已经取得了非常了不起的成果，其中一项就是语音识别。几个月前，在 Switchboard 标准测试数据集上，微软基于深度学习的语音识别系统的精度达到了创纪录的 5.1%，这是超过专业速记员的误差水平。尽管这项语音识别系统还存在一些应用场景的限制，但是我相信未来五年之内，机器将会完全超越人类的识别水平。

在计算机视觉方面，微软亚洲研究院的研究员们两年前率先提出的 152 层残差神经网络给图像识别提供了更多的可能性和发展空间，过去的深度学习方法从来没有成功训练过这么深的网络。总体来看，深度学习在图像识别的趋势中是更深更准，随着近年来模型的深度越来越深，误差也会越来越低。尽管目前而言，进一步实现层数的深度突破已经不太容易，但理论上还有很多值得深挖的研究点。我预计在十年左右，人工智能的图像识别率也会全面超越人类，这势必会给人类生活带来诸多方面的影响，也包括一些新兴的商业机遇。

在下一个十年，人工智能的突破在自然语言的理解。懂语言者得天下，人工智能对人类影响最为深刻的就是自然语言方面。语言理解分为三个不同的层次：表述、对话、意境。表述在今天看来已经非常成功，用机器学习就可以学到很多东西；对话就涉及到机器智能领域，包括对话和提问，这相对会比较困难；机器意识是意境的体现，让机器在有意识思维基础上理解和表达诸如隐喻在内的意境的能力。

用两个具体的例子说明我们从感知到语言表述方面的进展。第一个就是微软认知服务里面的 Image Caption，计算机系统能够自动给图片生成标题。第二个就是微软应用软件 Seeing AI，系统可以自动生成照片画面内容的表述，包括画中人物的动作甚至是表情。大家如果有兴趣可以到微软的网页上了解项目详细信息，同时我们还有很多其他视觉的服务。

图像空间到语义空间之间的关系，首先需要要有一个语义空间去把图像与文字联结起来，然后通过深度结构语义模型把图像和文字均表征成语义空间内的向量，在此空间中进行语义相似度计算。近几年来，感知到语言表示方面其实是越做越好的，这很大程度上归功于我们将这项技术做成系统，供大众去尝试。只要大家在 Caption Bot 这个系统中上传一张图片，就可以轻松得到有关这张图片的语言描述。

做系统的原因在于，往往就算想法很好，但如果没有一个能够让用户亲身体验的系统，很难发现自身可能存在的问题，毕竟一开始不存在完美的人工智能。我们曾经做了一个分析，对 1000 万张照片的标题进行机器生成内容和用户态度的对比。在这个项目中，很多用户都积极提供了问题，并且提出了许多非常宝贵的修改建议。

因此，在做大数据的时候一定要去分析数据，分析能够帮助我们认识到接下来应该如何去做。这在以后的好处就是能够不断迭代，让项目可以越做越好。我相信图像描述在现实生活中的应用场景是非常丰富的，单从描述这件事情上就大有可为。

我始终非常相信“对话即智能”，从回答问题到提出问题，从一问一答到连续对话。之前是机器理解，之后是问答对话生成。阅读文本及提问，首先要深度理解语言，不仅能回答问题，还要能提出问题。还有就是如何提出问题，阅读并找出关键点，围绕关键点生成问题。比如说我在读了一段文字以后，如何体现我对它的理解是到位的呢？比较了不起的就是我读完这篇文章我可以自己提问题，并且我自己还可以回答。

简单解释一下，这里面需要有一个记忆机制，并且要对话生成模型。同时，要在回复生成的过程中提炼主要的观点，然后综合对话情感，用户画像，以及记忆，一个对话往往会发生多次话题的转换，时间越长的对话，越有机会被自然地引导入期望的话题。

第三点我想分享一些比较新颖的东西，有关自然语言的意境。当我们从机器描述到机器对话，智能到底体现到哪里？图片可以理解和表达意境，能够实现有意识的脑补，以此和用户实现对话和交互。从客观描述到主观评论，再到天马行空的意境，就是只可意会，不可言传的境界。到现在为止，人工智能的研究是人做了一些东西，有一个表征，通过你的输入，机器把这些进来的信息做成机器的语言，再进行深度学习。今天绝大多数的人工智能的科研都是停留在这一步，真正有意义的对人类有贡献的，就是你要把结果反向推理。我们来看一下 Image Caption 的进步，它的表述和评论都充满了人情味。

最后讲讲微软对话式人工智能产品的布局：第一个是智能搜索，第二个是智能助理，第三个是智能客服，第四个是智能聊天。我觉得每一次时代的变迁，都是在重新定义人类和世界的关系。在人类到世界之间，人工智能最了不起的就是对我们人脑的理解，一个叫做 IQ，一个叫做 EQ，任何一个时代你都要思考什么改变了我们的生活。

本文转自微信公众号：微软研究院AI头条

了解更多：