CIIS演讲实录丨王士进：AIUI在智能人机交互中的应用

2017 年 11 月 6 日 中国人工智能学会

10月12-13日，第七届中国智能产业高峰论坛在佛山开幕，在第二天的智能机器人专题论坛上，科大讯飞北京研究院院长王士进发表了主题为《 AIUI在智能人机交互中的应用》的精彩演讲。

以下是王士进老师的演讲实录：

王士进：感谢徐老师的介绍，也非常荣幸能够在智能交互机器人的论坛介绍一下我们科大讯飞的相关工作，今天我做报告的内容，我们称之为AIUI，我们知道我们人类需要更好地跟机器之间协同，我们希望人和机器之间有一个更好的交互方式和手段，所以我们AIUI的目的就是为了将来我们智能的人机交互，相当于我们给我们的智能机器或者机器人有一个嘴、一个耳朵，同时还有一个智能的机器大脑，所以我今天的内容主要是围绕这个。

首先我们来看看发展趋势，因为大家都知道人机交互是伴随着机器或者机器人出现，人机交互这一年发展会比较快，早期时候，从电脑出现的时候，PC时代，当时我们所有交互的方式和手段基本上是以键盘和鼠标为主，在现在我们所谓的移动互联时代，我们更多的是以多点触摸、手写方式为主，随着智能生活的方式过来，我们会发现可能更多地通过智能的语音，更自然或者更便捷的方式会成为下一时代交互非常重要的方式，这里面其实我们也能够发现有一个交互的方式变化，原来传统交互的过程其实是我们称之为以机器为中心的，比如电脑，你用电脑的时候，你要知道这个电脑有各种各样模块和公式，你必须按套路来，你才能跟机器去完成交互。

我们现在新一代人工智能下的人机交互，其实是希望以人为中心的，也就是说机器可以跟你进行自然地交流，他能够真正地理解你人所需要，通过自然语言这种方式能够知道你的需求、诉求，从而去完成各种类型的交互，所以大家可以看到，这是我们称为智能生活时代里面一个非常大的交互方式的改变。我们基本上可以有一个定义，在将来更多的这种IOT时代、万物互联时代，以语音为主，以其它这种方式为辅，一定会成为智能机器或者是智能机器人交互的一个非常重要的方式。

传统的人机交互已经提出来有接近十几年的时间了，传统的人机交互其实还是有一些问题的，这个地方我再简单讲一下：

1、我们称之近场识别，如果大家手机里面有比如语音输入法或者语音助手的时候，你就会发现，现在我们语音识别在近场的时候可以做非常准的，比如说讯飞语音输入法可以在近场的时候做到95%到98%的准确率，但是一到距离远的时候很可能就会出问题了。

2、我们称之为嘈杂环境，其实我们在对着手机去近讲说话，这时候远处噪声对你一点影响都不大，但是距离一旦远的时候，无论是混响还是远处噪声也好，对识别效果影响非常大，所以说原来我们很早就能够在实验室把语音识别率做到很高了，但是一到真实场景里面，车载、家居的这种环境里面就会下降。

3、再一个就是我们称之为对话智能，传统的人机交互，包括语音的人机交互的智能机器人，更多的它是通过一些简单的模板使得我们可以交互，其实这种交互还是以机器为中心的，你要知道机器怎么交流，才能够更好地去完成这个功能，现在这个其实也是我们讲语音交互的一个痛点，反应的时间慢，也会使得我们人和机器之间的交互非常不流畅，所以这就是我们认为原来这种传统机器与人语音交互里面的几个问题，科大讯飞2015年发布了AIUI，人工智能时代这种人机交互的界面，使得通过语音识别、语音合成和交互理解，这三大模块的功能使得我们人和机器可以更自然进行交流。

原来我讲的痛点为什么存在，怎么去解决这些问题呢？大家可以看到我们AIUI里面想要做的事情是什么，第一个说的是语音识别，特别是对很多机器人或者嵌入式机器，它有个非常大的问题，功耗或者能耗的问题，如果一直处于这种识别状态，耗电量会非常大，所以语音识别之前，我们要有称之为语音唤醒的功能。对于语音识别怎么在噪音复杂的地方能够做更好的语音识别，我们实现了很多技术来处理这个问题。1、我们称为定向识音，这里面我们通过这种多麦克风判别以及机器这种方向判别的这种语音识别方法的优化，使得你在任何一个位置都可以去进行精准这样的一些识别，同时我们还有更多的一些包括回音消除的方法，以及我们回声消除的方法，使得你可以把识别做得更好。因为我们知道人跟机器去做交互的时候，可能你并不一定所有的内容都是围绕机器，你想做的交互内容，有时候可能会插入一些无意义的东西。无意义的东西，机器整个的回答，你也不知道机器是怎么样响应，现在通过我们称之为上下文对话管理技术，它能够更清楚地理解你所要表示出的意图，特别是基于个性化的理解，有更多上下文理解，会使得你的对话理解更加深刻。

语音合成，现在这种最新技术的发展，会是得语音合成有更多更新的定制化功能，现在只需要一个特定说话人一个小时左右的语音，可以按照这个说话人的特色非常逼真地去拟合出这个人的音色，这样大家可以想象，其实在很多场景里面，有非常多的用处，这是一个非常自然的交互方式。

全双工交互，大家知道我们原来人机交互称之为单工，单工还是双工其实是一个学术说法，简单来说，原来我们人在说话的时候，机器要去听，然后机器在说话的时候，你人要去听，所以这样大家可以想一下，我们人和人之间交互其实并不是这样子的，这样一个人机进行交互会非常影响我们的效率和体验的方式，现在我们通过全双工的交互可以是得我们人去进行持续的跟机器去交流，同时机器或者是人可以智能地打动，这样一种方式会使得我们交互起来非常便捷。

多轮对话，刚才我们提到了，通过我们这种基于上下文的管理技术，能够使得你在很多场景里面，能够把你的语意理解得更清楚，我们目前所能够在我们的AIUI技术里面做到的是对于一些特定的场景。这个特定场景既可以是我们预先定义的，也可以是通过我们的开放平台所开放出来的语意的功能，根据你自己所需要的这样一些场景去做定制的。比如我上面说我要去兑换外币，然后机器问你说是有交行、建行去哪一个，这时候你说交行，他就能够知道这个交行是说他要去兑外币对应的交行，这样后面很多一些理解都可以基于这个思想去做。

还有我们称之为个性化的，因为随着技术的发展和我们人们现在生活水平提高，我们在很多地方你所希望能够得到的服务都是个性化的服务，比如我们现在做智慧教育，比如我们希望每个小孩都能够得到自己针对性的辅导，你要知道我们这个小孩的画像，要知道它的优点是真正，缺点是什么，围绕缺点，其实我们现在所谓的这种交互，我们也希望能够在技术上面有更多的个性化的元素，比如个性化的元素：

1、我们可以自定义我们这个发言人和欢迎辞，我们原来跟京东合作一款音响，我们称之为叮咚音响，你可能要通过叮咚叮咚才能焕醒我们这个音响，但是很多你自己做的机器人或者机器设备，可以通过你自己定义的这种唤醒词去唤醒。

2、还有情感合成和个性化的合成，因为我们也希望机器不再是通过这种冷冰冰的固定的语言去跟我们人去交互，所以在这个地方我们提供更多的，包括基于语境的情感交互以及我们基于个性化音色的交互。语境的交互其实大家也知道，比如我们说陪伴型机器人，在跟你交互的时候，你跟他说高兴的事情，他应该是用高兴的语调跟你交流，你在遇到一些不开心的事情或者一些沮丧的事情，他可能用安慰语去跟你交流，我们根据情感、情境去合成。

我刚才提到的这些技术，现在通过讯飞开放平台可以非常边便捷地形成整体解决方案，包括硬件、软件、整体解决方案。同时我们从最开始2011年开始到现在，陆续地把我们跟语音识别、语音合成、语音理解，包括说话人的识别，很多图像识别的技术，都通过我们这个平台去开放出来，目前我们这个语音云的用户有30多万的开发团队，每个月大概有活跃1亿的用户在上面。

在平台里面，我们可以通过分析发现，机器人以及智能机器相关的平台开发团队是占一个非常大的比例，比如智能家居占40%左右的比例，智能机器人也占30%多的比例，所以大家可以看到现在使用这种技术去实现智能人机交互确实是一个非常大的趋势。

这里面我们还顺便提到一点，我们既把这些技术去通过我们这种开放平台去分享给大家，同时我们现在也会把更多的包括内容的资源，包括一些广告的资源，通过我们整个大的开放平台，把我们的用户、开发者以及内容提供商形成一个完整的生态，使得我们无论是作技术，还是内容，在整个生态里面可能会有更好的合作方式，所以我们也欢迎跟更多的包括创业团队、其它合作单位去在整个大生态里面去构建一些更好的产品，做出一些更有意思的应用出来。

我今天的演讲到此结束，谢谢大家！

CAAI原创丨作者王士进

未经授权严禁转载及翻译

如需转载合作请向学会或本人申请

转发请注明转自中国人工智能学会