专访俞栋：多模态是迈向通用人工智能的重要方向

2019 年 9 月 9 日 AI科技评论

随着语音识别、自然语言处理、计算机视觉等人工智能技术日益成熟，并逐渐落地到实际场景中，如何实现大规模应用落地或者说如何通往通用人工智能，越来越成为这些领域的研究者探索和思考的命题。

在这种探索和思考下，“多模态”成为人工智能领域诸领军式专家和学者重点谈及的研究方向，例如，自然语言处理领域专家刘群教授在此前与 AI 科技评论的对话中，就曾谈及诺亚方舟语音语义实验室目前的一大重点研究方向便是多模态；德国汉堡科学院院士张建伟认为人机交互的未来是多模态共享模式；计算机视觉领域专家贾佳亚教授则在多场演讲中提出「多模态是人工智能的未来」这一观点。

而腾讯作为业界关注这一研究方向的代表之一，自 2018 年 2 月就开始关注多模态方向的研究，并于 2018 年 11 月宣布探索下一代人机交互方式：多模态智能。

9 月 2 日，在腾讯 AI Lab 携手 Nature Research（自然科研）及旗下《自然-机器智能》、《自然-生物医学工程》两本期刊联合举办世界首届「Nature Conference - AI 与机器人大会」上，语音识别领域的领头人之一、腾讯 AI Lab 副主任、多模态虚拟人项目负责人俞栋博士更是基于其在多模态技术上的研究成果，带来了《虚拟人中的多模态合成技术》的演讲报告，以虚拟人项目为载体，向大家介绍了多模态的技术优势，并分享了腾讯 AI Lab 在这一方向上的研究和应用探索。

会后，AI 科技评论还对俞栋博士进行了专访，进一步探讨了多模态的应用探索情况，其中，俞栋博士在将多模态这一研究方向视为迈向通用人工智能的突破口的同时，也以更加冷静的态度指出，多模态会是未来人工智能的一个非常重要的方向，但并不是全部。因为人工智能是一个很广泛的概念，我们目前对它可能只是略知皮毛，通往通用人工智能的这条路到底是怎么样的，大家都还处于一个探索状态。

与此同时，AI 科技评论也借此机会跟俞栋博士聊了聊他领先将深度学习技术应用到语音识别领域的历史渊源、从微软研究院到腾讯 AI Lab 的职业转变经历以及其对于语音识别领域未来发展的看法。

我们先来看俞栋博士在本次大会上都分享了什么。

为什么多模态是人机交互的发展趋势？

人机交互走过了键盘交互、触摸交互等若干阶段，目前许多设备采用语音交互的方式。而交互模式经历每一次变化背后的驱动力，都是对人和机器之间交互的便利性、自然性以及准确性所提出的更高的要求。

为了更好地满足人机交互的这一需求，俞栋博士指出了一个非常重要的研究方向或者说发展趋势，那就是多模态人机交互。与此同时，俞栋博士也解释了为什么多模态是人机交互的发展趋势的原因，主要有四点：

第一，多模态交互能够让人类在不同的场景下可以选择不同的模态组合进行交互，进而从整体上提高人机交互的自然度；
第二，在多模态技术下，一个模态可以补充另一个模态的弱点，从而能够通过融合多个模态的信息，获得更精确的用户、情感、场景、和发声人位置估计；
第三，多模态交互具有「互为监督」的优势，即当机器无法获得某个模态的明显信息时，其他模态可以为其提供弱监督信息，让机器能够持续做系统自适应调整；
第四，多模态能够让人们在与机器的交互过程中拥有多维感觉，从而能够从视觉、听觉、触觉等多方面体会机器的情感和表达的语义。

而除了所具备的这些优势外，俞栋博士认为，多模态交互还能够给业界带来更多的想象空间，比如可以尝试使用人机交互技术去做虚拟解说、虚拟前台、虚拟陪伴等。

正是由于多模态交互所具备的这些优势以及所带来的这种想象空间，他也领导团队开启了虚拟人的研究项目。下面，俞栋博士也以虚拟人这项研究成果为载体，对多模态交互技术进行了详细介绍。

多模态交互技术详解及应用成果分享

俞栋博士首先介绍了多模态交互的系统框架，主要包括三个部分：多模态输入、中间的认知和决策控制环节以及最后的输出。

进一步，俞栋博士向大家展示了多模态技术的阶段性成果——虚拟人的合成技术流程：系统首先从文本中提取各种各样的信息，包括动作、表情、情感、重音位置、和激动程度等；之后将这些信息输入到动作表情模型生成动作和表情，同时输入给多模态合成系统 DurIAN 同步生成语音以及口型和表情参数，进而合成真人或者卡通形象。

其中，同步合成语音和图像的 DurIAN 模型作为多模态合成技术的核心成果，则是俞栋博士本次要介绍的重点内容。

据俞栋博士介绍，相较于传统语音合成方法以及目前最新的端到端语音合成方法，应用多模态合成技术DurIAN 模型，无论是在自然度、鲁棒性、可控性、泛化能力以及实时性等方面都取得了更好的效果。

传统语音合成方法 VS 端到端语音合成方法

在正式介绍 DurIAN 模型前，俞栋博士先介绍了传统语音合成方法、端到端语音合成方法、以及这两种方法各自的优缺点。

传统语音合成方法主要基于 BLSTM+WORLD 模型，拥有稳定性和可控性较强的优点，同时也存在合成语音机械感太浓的缺点。不过由于该方法具备较强的稳定性和可控性，在工业界的实用系统中主要还是使用这种框架。

端到端的语音合成方法优点则在于自然度很高，缺点则是稳定性和可控性比较差，其中最常见的问题是漏字和重复。以从文献中摘录的结果为例，该系统出现漏字或者重复错误的可能性为 1%-5%。因而，该方法在实用系统里没有得到广泛使用。不过近来，该方法取得了很大进展，例如谷歌于 2018 年提出的结合 WaveNet 的 Tacotron 模型。

相比于传统语音合成方法，端到端语音合成模型 Tacotron 的优势主要有四个改进部分：

第一，它使用了基于神经网络的编码器模型来替换人工设计的语言学特征；

第二，它直接预测含有丰富信息的频率谱，而不是源过滤器声学特征；

第三，它引入了自回归模型，解决了合成过程中的过度平滑问题；

第四，它采用了基于注意力机制的端到端训练方法。

不过，这种端到端的注意力机制也带来了稳定性差的问题。俞栋博士团队通过分析发现，注意力机制是模型出现漏词、重复等问题的主要原因。下图右边有两个合成案例，其中标蓝的字是被漏掉的。

应用多模态技术的语音合成系统：DurIAN 模型

基于对端到端语音合成模型 Tacotron 出现漏词、重复等问题的原因的发现，俞栋博士团队在 DurIAN 模型中提出了解决方案，即保留 Tacotron 模型中对语音合成的自然度有益的部分，也就是上述提到的前三个改进部分，然后使用时长预测模型来替换端到端注意力机制。其基本做法是训练一个音素时长预测模型，然后在给定时长的情况下，对模型进行端到端训练。

这样的话，DurIAN 模型在能够保证不出现漏字、重复问题的情况下，既能保持端到端语音合成模型自然度高的优势，又能解决系统的稳定性和可控性问题。

其中，在可控性方面，DurIAN 模型还能进一步实现精细的控制，基本思路是采用监督学习方法，不过不需要对训练语料进行精细标注，比如只需要标注语音是否激动或者语速是快还是慢。在训练时，让每一个控制变量都学习一个指向性矢量；在合成过程中，则只需对相应的矢量做连续值的缩放，便可以实现精细化的风格控制。

除了稳定性和可控性，DurIAN 模型在鲁棒性和泛化能力、实时化等方面都有较大的提升。

针对此前端到端语音合成系统存在鲁棒性以及泛化能力弱的问题，DurIAN 模型引入了语言学信息，尤其是标点和韵律边界，即通过充分利用中文语音里的韵律结构来提高模型的泛化性能。具体做法是在 DurIAN 模型中采用 Skip Encoder 来替代 Tacotron 模型中的编码器结构，从而有效引入中文语句里的韵律结构。而Skip Encoder 的基本思想是，在输入时用额外的帧显式表达这些语言学信息，不过由于标点和韵律边界本身是一个时间点而不是一个时间段，因而在编码器输出的地方放弃跳过额外增加的帧，这样每一帧的编码器输出仍然与频率谱的帧相对应。

在实时化问题上，此前谷歌曾提出了 waveRNN 模型，虽然在运算速度上比神经声码器一开始常用的 wavenet 快很多，经过仔细的工程优化也能够实现实时，然而实时率不佳，且语音合成成本高。对此，俞栋博士团队提出了多频段同步式 waveRNN 技术，其基本做法是把语音信息分频段，每一步用同一个声码器模型同时预测多个频段的值，如果分成 4 个频段，则每一步可以计算 4 个值，计算次数就是原来的四分之一。与此同时，在合成过程中，声码器预测多频段的值后，通过上采样和专门的滤波器设计就能保证恢复没有失真的原始信号。

语音合成以外，俞栋博士还展示了 DurIAN 模型在同步合成多模态信息上的优势，即该模型中的时长预测模型，可让系统能够同步合成语音、嘴型以及面部表情参数，最终生成卡通形象或者真人形象的虚拟人。

未来工作展望

尽管在自然度和鲁棒性、风格可控、实时性以及同步合成语音、嘴型和面部表情等方面，DurIAN 模型已经做得非常不错，但俞栋博士也指出，该技术还有很多探索的空间，未来其团队也还有很多工作要做，主要包括四个方向：

第一，在模型优化上，需要探索在 DurIAN 结构基础上的端到端训练方法，以更好地支持端到端优化；
第二，在控制能力上，需要让模型进一步拥有全方位的控制能力，即能够在不同的场景、情感、音色、语气信息下，合成对应的语音；
第三，在训练语料方面，需要能够让系统从低质量的语料中学习韵律，从高质量地语料中学习音质；
第四，需要对模型的定制化进行进一步探索，从而在少量的语音语料（<15 分钟）的情况下，也能够训练出新的音色。

AI 科技评论专访俞栋博士对话实录：

多模态在虚拟人项目中的应用探索

问：本次您的报告主题是《虚拟人中的多模态合成》，您在演讲中重点介绍了虚拟人这一最新成果以及多模态在虚拟人中的技术应用，那您一开始研究这个项目的契机是什么？

俞栋：第一，我们越来越意识到单一技术能做的事情非常少，因而需要将很多的技术组合起来，这样才能做出比较有影响力的成果。

第二，腾讯 AI Lab 创立之初就刚好设立了虚拟人所需要的各个研究方向，包括语音、自然语言处理、机器学习、计算机视觉等等，所以在虚拟人这个项目上，我们目前所具备的条件已经是比较成熟的。

第三，多模态交互是历史发展的必然趋势，我们预估这项技术在接下来的几年时间里会变得越来越重要。

问：目前虚拟人项目的进展如何？

俞栋：我们去年下半年开始规划这个项目，今年年初算是真正开始有组织地做这个项目，经过八个月时间的研究，该项目也取得了一些进展。（相关进展见上述报告部分）

这个项目大概分为三个核心的部分：第一个是虚拟人的输出；第二个是虚拟人的输入，包括看、听、触摸等感知方面的东西；第三个是认知和对话的模块，这个模块成熟度最低，但也是非常重要的模块。对于认知模块，业界研究了很久，目前还不知道正确的做法是什么。我们现在对于这个部分能够做到什么程度也不是很清楚，不过，我们还是要组织力量往这个方向走。

问：现在人工智能领域，包括腾讯优图实验室负责人贾佳亚教授等研究者都在研究多模态这一技术，他还在近期的演讲中提出了“多模态是人工智能发展的未来”的观点，您怎样看待这一观点？

俞栋：我认为应该说多模态是未来的一个重要方向。人工智能是一个很广泛的概念，其实我们到目前为止，可能也只是了解到它的一点皮毛，包括认知推理、因果推理到底是怎么回事，机器的泛化能力为什么这么弱等这类基础性问题，我们现在都还没有搞明白。

通往通用人工智能的这条路到底是怎么样的，大家都还处于一个探索状态，所以强化学习、多模态交互等都是通往通用人工智能的一种重要的尝试，但不是全部。

在若干年后，说不定大家还会发现另外某项技术才是真正能够实现通用人工智能的技术。

学术研究经历

问：仅就学术而言，您的简历就已经非常丰富，是首次将深度学习技术应用在语音识别领域的研究领头人之一，与 Geoffrey Hinton、邓力等人都有过深度合作，无论是论文、专著还是研究成果方面，表现都非常突出，那您一开始是基于怎样机缘选择语音识别这一研究方向的呢？

俞栋：我小学的时候看过一本课外书，叫《奇异的机器狗》，现在里面谈到的很多东西都已经实现了，包括机器能够听懂人说的话，可以跟小朋友交互、帮他们解决学习问题，还能够带小朋友去玩，等等。因此实际上，我在小时候就对这些智能机器人产生了兴趣。

而真正与语音识别这个方向接触则是在大学本科期间。我本科在浙大念自动控制专业，当时就读的班级是浙大设置的一个特殊的班级，叫做「混合班」，进入这一班级的都是当年入学新生中最好的一百个人。这个班的老师将我们这些学生当做将来专门的研究人员来培养，所以我们一入学就开始关心「科技国家队」的概念。

大学三年级的时候，我们便进入课题组做研究，当时恰逢人工智能发展的小高峰期（1989 年~1991 年），其中主要有两个比较热门的方向，一个是专家系统，像我当时的学长吴朝晖（现任浙大校长）在这个方向上的研究工作比较多；另一个方向便是当时刚刚开始热起来的神经网络，我当时的一个方向便是神经网络。

本科毕业后，我打算去中科院，因为当时在大家的认知中，中科院就是科技国家队。由于本科专业是自动控制，所以便去自动化所找导师，在此过程中发现了研究方向跟我的兴趣比较一致的黄泰翼老师，他研究的是语音识别。比较巧的是，我在「混合班」的学长徐波（现为自动化所所长），当时也在黄泰翼老师那里读研。所以我最后就去黄泰翼老师那里读研，开始进入语音识别这个研究领域。

问：实际上在深度学习早期阶段，这一方法实际上并不被看好，您是在怎样的背景下开始研究深度学习的？

俞栋：正如我前面提到，我刚开始接触神经网络的时候，神经网络是当时人工智能的一个热门研究方向之一。

后来我到黄泰翼老师那里读研究生的时候，黄泰翼老师以及其实验室的其他老师也采用神经网络的方法来做语音识别，所以我在自动化所的硕士论文，便是采用神经网络的方法做语音识别。这就为我之后将深度学习引入语音识别任务的一系列工作奠定了基础。

问：今年，Hinton 等深度学习三巨头摘得 2018 图灵奖，而深度学习给人工智能领域带来的变革性影响早在前几年就已经发生了，您是否认为这是给深度学习的一份迟到的荣誉？另外您怎样评价这三位研究者的工作？

俞栋：我认为基本上是适时的。因为科学发展中的很多进展，在当时刚出来的时候，该领域的人很难看清它们的影响到底有多大，一般都有一个认可延后期，有的可能只需要几年，有的甚至要等到发明人去世后这项成果才能被认可。所以我认为他们获得这项荣誉，还算是比较适时的。

首先，他们很早就开始研究深度学习，我大学期间首次接触到这项工作之前，他们就做了很多铺垫性的工作；其次，他们在这个方向上坚持了很久，即使在低潮时期，他们依旧在坚持，这都是非常值得我们研究者学习的品质。

问：将深度学习技术应用于语音识别是否是您最具代表性的工作？之后在语音识别这一领域您有哪些主要的研究方向？

俞栋：我认为这是一项比较有代表性的工作，当然我们在这个研究方向上做了一系列工作，因而对这个领域起到了一个比较大的推动作用，如果只是单项工作，推动作用也就没有这么大了。

目前我们比较关注的一个研究方向是多模态，这是一项涵盖视觉、声音、符号语言、嗅觉和触觉等信息的技术，而语音部分相关的如语音识别、语音合成、语音增强、语义分离、声纹识别等技术，在多模态中都有用到。

从微软研究院到腾讯 AI Lab

问：学术以外，您在工业界的履历也非常丰富，2017 年 5 月份，您离开微软研究院加入腾讯 AI Lab，在工作内容以及承担的角色方面，有怎样的转变？

俞栋：原来在微软研究院任职的时候，相对来说会更加专注自己的研究方向和技术层面的东西。加入腾讯 AI Lab 后，我承担的角色不再是纯技术研究型的，除技术研究外，还需要扮演管理者的角色。

相对来说，刚开始比较难适应的难点有两个：一是自己要花很多时间在管理方面，做技术的时间相对来说就少了，需要我找到更好的平衡；二是由于我负责的团队在西雅图，跟总部这边由于时差等原因，晚上的很多时间需要和国内开会，晚上可自由支配的时间比在 MSR 时少了很多。为了减少沟通问题，我增加了到中国实验室的时间。

问：目前，国内科技巨头其实都已经先后创建了人工智能相关的实验室，您怎样看待腾讯 AI Lab 在其中的位置？

俞栋：现在这些企业都成立了人工智能实验室，招了很多很强的科学家，我认为这是一个好的趋势，对整个 AI 的发展会有很好的推动作用。

相较之下，腾讯 AI Lab 稍有不同的地方在于，我们的研究跟产品的紧密程度，可能没有其他实验室那么高。其他公司的实验室更像是一个工程院，偏向于将一些论文中的技术复现，然后落地到产品中。而我们则更注重是否能够发展前沿技术，跟其他企业的实验室的侧重点不完全一样。

问：您带领的团队对学术界在语音识别领域的进展的关注度如何？除了语音之外，您的团队还关注其他哪些研究方向？

俞栋：我们对前沿技术非常关注。我个人每年都至少会参加一次语音相关的会议和一次自然语言处理的会议，同时我团队中的其他成员也都会参加相关的会议，因此学术界主要的会议，我们基本上都有同事参加。

语音以外，我们比较关注的方向，还包括自然语言处理、计算机视觉、图形图像学以及机器学习和人工智能技术的基础理论等。

语音识别领域的现状和未来发展

问：在工业落地方面，相比人工智能其他领域，语音识别是跑在前头的，但是目前暴露出的问题也很多，其中您认为比较严重的问题有哪些?

俞栋：其实存在的问题，说到底还是鲁棒性问题。现在基于深度学习的方法使系统鲁棒性已经比之前好很多了，但是还达不到我们期望的效果。

现在我们的主要做法就是增加训练语料，而训练语料目前存在采集困难的问题，并且即使采集的语料很多，一旦机器在一个此前没有见过的完全新的 mismatch 的环境中，也无法实现太好的效果。

比较典型的例子是，现在很多语音识别器的错误率能够达到百分之六七，即便在相对比较嘈杂的环境下也能做得比较好，但是如果遇到两个人同时说话的场景，错误率可能达到百分之五六十。另外如果说话人的口音比较重，语音识别器的效果也不会很好。

此前我们也尝试了很多解决方案，包括提高模型的泛化能力，做模型的自适应，目前来看，这些方案还有很大的提升空间。

问：就您看来，语音识别领域的发展经历了哪些阶段，目前处于怎样的阶段，以及理想化的状态应该是怎样的？

俞栋：从难易程度来划分，语音识别跟人工智能其他领域经历的阶段很相似：一开始做一些非常简单的任务，比如说音素识别、单字识别；接着是连续语音识别的阶段，隐马科夫模型出来以后，连续语音识别就变得可行，后来到了大词汇量连续语音识别；再之后是即时语音识别阶段，要求机器能够听懂人自由聊天。

现在则是完全真实场景下的语音识别阶段，比如目前很多研究者在尝试研究鸡尾酒会场景下的语音识别。这也是下一阶段我们要突破的方向，真实场景下的语音识还包括在非常嘈杂的环境下或者说话人口音很重的场景下做语音识别。

我认为，机器的理想化状态应该是能够比人识别率更高。计算机在未来某一天，应该是能够在各个场景下的识别率都比人更高的。

问：未来三到五年，语音识别领域可以寻求突破的方向或者说技术有哪些？

俞栋：我认为未来三到五年，语音识别领域可以突破的方向主要有三个：第一是多模态；第二个是具有更强、更快自适应能力的模型；第三，类似鸡尾酒会场景下的语音识别也会是一个可以探索的方向。

更多内容

「LSTM之父」 Jürgen Schmidhuber访谈：畅想人类和 AI 共处的世界 | WAIC 2019
历年 AAAI 最佳论文（since 1996）
一份完全解读：是什么使神经网络变成图神经网络？

点击 阅读原文 查看用于语音识别的数据增强

登录查看更多