会员服务 ·

百度硅谷AI实验室主任：人工智能研究和产品各有各的坑

2017 年 8 月 16 日 量子位 专注报道AI

唐旭编译整理
量子位出品 | 公众号 QbitAI

Adam Coates是百度硅谷AI实验室的负责人。自2014年5月以博士后身份离开斯坦福大学后，Coates便一直负责百度硅谷AI实验室的工作至今，主导开发了百度的深度学习语音识别系统Deep Speech。

最近，Coates被请到了YC播客的直播间，在那里谈了谈自己过去、现在和未来的工作、遇到的挑战以及行业的现状和未来趋势等等方面的问题。

原文很长，量子位将内容整理在下面。感兴趣的同学，可以进一步点击左下角阅读原文，查看访谈的视频和英文原文。

关于百度硅谷AI实验室的工作

主持人：哈喽大家好，你正在收听的是Y Combinator的播客，我是主持人Craig Cannon。今天请到的嘉宾是Adam Coates，百度硅谷AI实验室的主任。Adam，你能给那些不了解的人简单介绍一下百度吗？

Coates：当然……（此处省略两百字）

主持人：OK，那么你主要负责什么工作？

Coates：我是硅谷AI实验室的主任，硅谷的实验室是百度研究院内部四个实验室之一。（量子位注：硅谷AI实验室、深度学习实验室、大数据实验室、虚拟现实实验室）

随着百度逐渐成为一家AI公司，需要有一支处于领域最前沿的团队来弄明白所有目前的研究，并且能够自己进行大量基础性的研究，同时还要考虑如何将这些东西转化到业务和产品的影响力上。这些事情变得越来越重要，这就是百度研究院存在的原因；尤其是在AI实验室，我们第一次意识到这些问题将会变得多么棘手。

鉴于当下的深度学习研究和AI研究正在如此迅速地向前飞跃，对于同时具有这两方面素质的团队的需求就变得更为急迫。因此我们就建立了AI实验室，来帮助这家公司更快地进步。

主持人：对于基础性研究和产品的落地这两项工作，你们的时间是如何划分的？

Coates：这个问题没什么硬性或固定的规则。我们每天都会提醒自己：我们是任务导向的。准确地说，AI实验室的任务就是创造能够对至少1亿人产生深刻影响的AI技术。我们用它来不断地提醒自己回到最终的目标上，即我们所做的所有研究最终要落在用户手中。

有时候这意味着，我们会发现某些必须要发生、能够真正让技术进步、同时能够帮助百度的东西，但却没人知道如何把它搞定，这就出现了一个基础性研究的问题，需要有人出来解决，我们会站回到更高的立场上，为长远考虑，然后投入研究。

在这上面获得成功之后，我们会将注意力转移到另一个问题上。我们会负责将所有成果输入一个真正的应用，并且会确保放进去的东西不是只解决了90%，那只够写论文——我们会解决到99.9%。

我给你举个例子。我们过去在语音识别上花费了大量的时间。语音识别在几年前是那种“已经非常好但还是不够好”的技术之一。传统上，语音识别系统已经为移动搜索这类的东西做过很大程度的优化，如果你把自己的手机放到嘴边，提一个短点的问题……

主持人：会得到一个非人类声音的回应。

Coates：就是这样。系统能够把这个问题搞定，并且它们已经做得相当不错了。我认为我们在百度做出来的语音引擎，叫Deep Speech，在处理这些短问题上的水平其实已经超越人类了。因为这种情况缺乏语境，人类还可能带有浓重的口音。

其实，那个语音引擎一开始是个基础研究项目。

当时我们看着这个问题，心想苍了个天啊，要是你用过的每一种产品上的语音识别都能达到人类水平会是什么样子啊？不管是在家里还是在车里，你拿起电话，或近或远，如果我在厨房里，我的孩子在冲我嚷，我还能用语音交互吗？它能像人类一样理解我们吗？

主持人：推动它进步的基础性研究是什么样的呢？

Coates：我们有一个假设就是，在语音领域阻碍了大量进步的，可能只是规模问题。

我们可以去看看那些已有的研究文献，学习它们的基本方法，将研究规模大幅扩张，放入多得多的数据，在解决计算问题上投入了更多时间，并最终构建了一个比任何已有模型都大得多的神经网络之后，我们基本就能收获更好的表现。

你看看，在大量的努力之后，我们就得到了这个令人惊奇的语音识别模型，就像我说的，至少在汉语上，它已经比人类更强了。

假设你们正在听某个人的一条语音搜索请求，然后一群本地人在那巴拉巴拉争个你死我活，你在想“这人到底说的是毛啊？”。这时语音引擎给出来一个正确答案，然后所有人恍然大悟——那只是一句来自中国某乡村地区的浓重方言。

关于数据量上的技术挑战

主持人：那你们有多少数据来对这个模型进行训练？我觉得在上面那个场景里可能只有英语和汉语吧？要是我想要德语的呢，我需要给它多少数据？

Coates：在这类事情上最大的挑战之一，就是它们需要成吨的数据。我们的英语系统使用了10000到20000小时的音频，为了达到最好的效果，汉语系统甚至用了更多。

这就意味着这些技术处于这样一种状态：想要获得超越人类的表现，你就真的需要在上面花费很大的心血。

百度的语音搜索、地图这些都是公司的旗舰产品，我们可以将资本和精力投入其中。

但接下来，它也引出了基础研究领域一个令人兴奋的问题——我们该如何绕过这些障碍？我们该如何用小得多的数据量，来在每种产品上开发出超越人类表现的系统？

主持人：你有没有关注Lyrebird公司的产品？他们说自己不需要那么多的时间、那么多的音频数据就能对声音进行仿真，或者叫模仿。你们也有类似的项目在进行，对吧？

Coates：对，我们有文本转语音方面的工作。

主持人：为什么他们能用很少的数据做到这个效果？

Coates：我认为要解决所有这些东西背后的技术挑战，我们能做的有两方面。

其一是尽量在许多不同的应用之间共享数据。拿文本转语音这件事举个例子，如果系统学会了模拟许多人的各种声音，然后你给它第1001种，它已经通过之前的1000种声音学会了关于语言的一切，剩下的只是一些非常特殊的变化，只需要很少的数据就能学会。

另一方面就是，对于很多类似的系统来讲——比如我们刚刚谈到的语音识别，重要得多的问题是我们希望能从监督式学习转移到无监督学习上，我到时只需要给它大量的原始音频，它就能在我要求它学习一门全新的语言之前学会语音的机制。这种方式也很有希望减少我们所需的数据量。

主持人：你前面提到自己的团队会去解析那些大学做出的研究成果，然后弄明白如何应用它，那你们会把所有新出现的东西都测试一遍吗？

Coates：其实应该是某种程度上的混合。我们的角色不光要考虑AI研究，还需要考虑AI产品以及如何让这些东西发挥效用。我觉得，很显然每天都有那么多的AI研究在发生，我们不可能把每个都过一遍。但当下最大的挑战之一，并非只是简单地把所有东西消化掉，我们还要辨别出那些真正重要的东西。

语音产品的难题和趋势

主持人：所以什么产品能影响更多人？

Coates：我们选择的是语音识别，因为总的来看，我们认为它有这样的潜力。

随着我们迎来AI产品的浪潮，我认为我们接触到的东西会从这些正在不断发展的AI特性转变为真正沉浸式的AI产品。

如果你去看看几年前那些手机输入法是如何设计的，你会发现人们只是在键盘上加个麦克风图标，然后连上他们的语音API。

在当时的技术水平下，这感觉还不错。但现在，随着技术变得越来越好，我们现在可以把语音输入顶到前头去了，我们可以创造一个语音优先的输入法，事实上我们的AI实验室一直在做这样一个原型。你可以把它下载到自己的安卓手机上，它叫TalkType。

我一直在用它，以前我从没想过会这么做。我们会发现它是如何改变用户习惯的，我们能够理解语音识别如何从只是产品中的一种特性，到更为深刻地影响人们。

这激励着我们开始注重全领域内需要解决的语音问题，语音识别的场景从凑近手机说一个搜索词，到让人随时随地都能和设备交互。

主持人：所以你们会把它推向一大群用户，然后收集他们的反馈？我知道许多人在谈论它，一些人说它根本没意义。有没有那种特定的使用场景，你会惊讶于它是如此的有效，或是某些你拿不准会产生什么效果的场景？

Coates：很显然，发消息是最受欢迎的用途。反馈的话，对我而言最有趣的部分是，那些有着浓重口音的人会评论说：“唉，我从小到大就带着这么野的口音，啥东西都对我无效，但我尝试了这个新输入法之后，它把我亮瞎了！“

现在所有的东西都适用于不同的口音了，因为它完全是数据驱动的。我们不用考虑要如何去服务这些不同的用户，如果他们能在数据集中被反映出来，我们能够得到一些文本，我们就能以一种手工做不到的方法来服务于他们了。

主持人：语音识别、合成这些功能以后会在本地完成吗？还是会一直需要调用API？

Coates：我认为在本地计算是一定的。

有件事情很有意思，你看那些不怎么了解科技的普通人，他们在和AI技术交互的过程中，经常会做出一些把对方当做人类的反应。

也就是说，我们为“愉快的”AI产品定下了一个很高的标准，希望和产品的交互能像和人交互一样。

当我们把Deep Speech作为产品推出的时候，就遇到了一个问题：延迟。

50-100毫秒的延迟，和200毫秒的延迟在感知上有明显区别，降低延迟对用户体验有很大的影响，于是我们的研究人员和产品团队一起，寻找降低延迟的方案。

主持人：在技术层面上，怎样让它反应更快呢？

Coates：最开始，我们为Deep Speech做基础研究、写论文的时候，选了个准确率最高的模型。后来我们发现，这个模型非常不适合用在产品里。

后来我们从产品需求的角度来考虑这个问题，寻找那种性能差不多，但不需要那么多未来语境信息的模型。

我们原来的模型需要听完整句话，才能给出一个准确的反馈，这样准确率很高，但延迟也很高，用在产品里用户体验就不好。因为你和语音系统交互的时候，会需要它随时能给你个反馈，让你知道它在听。

所以，我们需要修改神经网络，让它不听完整句话就能先给出一个还不错的答案，听完整句话、了解了后面的预警信息，再去更新这个答案。

主持人：我发现最近几年，我们已经学会去迁就这些AI系统了。比如说我和Siri说话，就会尽量用正确的语法；旅游的时候用Google翻译，会尽量让它翻译单词，不让它翻译句子。

你有没有觉得我们和机器交流的时候应该迁就它们一点？还是说你的目标就是要造一个像人类这样完美交流的机器？

Coates：至少在高价值的应用上，我其实希望能达到人类水平，我觉得通往这个目标的路上也没有什么特别大的障碍。

我们还有很多研究要做，但我真诚地相信，语音识别过几年就能完全不成问题了。

主持人：现在最困难的事情是什么？你觉得哪些地方还不够稳？

Coates：对于我们能够获得大量标注过的数据的问题，我们还有一点可以提升的空间，但最终可以把那些问题解决掉。但是还有很大一部分人类能做的事情，通常是不假思索的，目前的语音引擎就是处理不了。

我们能够在几个人同时说话或者有大量背景噪音的情况下完成交谈，如果你从屋子的另一边和我对话，即便会有很多回声，我们的对话仍然能够继续进行，基本上这不会对人造成很大影响。但在这一点上，现在的语音系统经常会表现得十分挣扎，但对于下一代的AI产品来讲，你就必须解决这些问题。

因此我们现在在做的许多事情就是在解决这些问题。要如何解决人们彼此之间的对话？多个不同的讲话者非常随意的对话要怎么办？我要如何转录演讲这类很长的结构，在演讲的过程中，能够意识到自己错误地理解了某些东西？我还要搞懂、转录一些行话术语。这是我们在对产品的革新上做得非常有用的一个地方。

我们最近刚刚发布了一个名为Swift Scribe的产品版本，来让速记的工作更有效率，它的目标就包含了理解那些需要很长形式记录的场景。

关于AI的前景与人才

主持人：谈到摹仿某人的声音，你对伪造这件事有什么担忧吗？你看过那种人脸的仿真没？把视频和音频都灌输给机器，你就能凭空制造出一个人谈话的场景。对于一个这样的世界，我们应该如何面对？

Coates：不，在某种意义上，我觉得这是个社会性问题。从文化上讲，我们都会去做很多批判性思维的训练。我们都会去阅读别人的文章，如果看不清写作风格的话，就没法判断它是从哪来的。我觉得在如何处理这样的场景方面我们已经形成了习惯，我们能够去合理地怀疑；同样，我认为我们会找出方法来适应这个新世界的。

我会去考虑那些不断出现的巨大挑战，但我同样会想到AI将会带来的很多积极影响。我一般不过多地去谈论它。

事实上，我的母亲患有肌肉萎缩症，在iPad上打字这件事对她而言很难，语音或语言的交互界面，对于他们来讲会非常有价值。这些都是平常我们不会去过多地思考的问题，但却是这些技术在未来几年会真正解决的问题。

那作为用户，要如何面对这些已经出现的挑战？我觉得，在过去面对这些事情时，我们已经做得非常好——在未来我们会继续做得一样好。

主持人：你认为AI会为人类创造全新的工作吗？还是说我们只是会机械地去给系统喂数据？

Coates：我说不好。这就像美国每个季度的失业率都非常高，这对我们的劳动力市场是种冲击。我认为这个进程在变得越来越快。我们在AI实验室里谈论这种现象，深度学习研究在这发展得飞快，我们一直在让自己跟上这种步伐，以确保自己能够不断创新。我觉得这其实对每个人而言都是一点启示，未来继续学习将会变得越来越重要。

主持人：所以为了工作不被AI抢走，你是如何让自己保持学习的？

Coates：我认为，现在我们的工作还没有被机器人取代的风险。事实上，这很有趣。关于这些事情将会如何影响自己的职业生涯，我们已经想过很多。有一件事是真的：你要是想开个新的实验室，要做的第一件事就是把那些AI专家拉进来，让那里成为他们每天生活和呼吸AI技术的地方。我认为这非常重要。

对于基础性研究来讲，你需要做到那种专门化。但因为这个领域正在如此迅速地发展，我们现在需要不同种类的人才。我们同样需要那些灵活善变的人，既能理解并为科研项目做出贡献，还能同时转到另一方面，考虑如何同GPU软件以及生产系统进行交互。很多时候，今天的产品团队并不能告诉你，要如何在机器学习算法上进行改进，才能让用户体验变得更好。

边界是个很难去量化的东西，你必须在调整算法的过程中去考虑这些。你同样要留意科研社群，考虑什么是可能的，什么是就要出现的。最后，一个棒极了的全栈机器学习工程师就出现了。