「整个语音链条上的所有技术模块,每一个都要跟世界上 State of the art 的技术看齐,这些工作是一定要做的。」鄢志杰表示。在团队眼中,这一年赶超了其他巨头二三十年的进度。不过他们也不否认,其实 iDST 是「站在巨人肩上」。
撰文 | 王艺
编辑 | 刘燕
阿里巴巴并不总是时髦技术的追赶者。在语音技术领域,阿里只是在 2014 年搭乘了末班车。BAT 三巨头中,百度语音团队成立于 2010 年左右,而腾讯的微信语音识别从很早就开始做起。阿里以合理的投入严肃地组建一支自主知识产权的语音团队,iDST 语音团队负责人鄢志杰说,当时的人才市场几乎是能够为阿里所用的最后一小拨人。
促成这一决定的动机在于,阿里认为,淘宝经历了用户使用习惯从 PC 端到手机移动端的迁移,那么下一个阶段也许会是解放双手的语音交互,也就是用语音命令完成搜索购买,这本身是出于对互联网流量入口的布局考虑。2017 年 5 月,阿里巴巴将集团各条业务线上的人工智能技术汇集到 iDST。由院长金榕带领,下属语音、图像、智慧城市等几个细分团队。其中,语音团队向集团各业务线以及阿里云提供从识别、理解、到交互、合成的所有语音相关技术。
从被誉为人工智能元年的 2016 年开始,语音市场战局便愈发火热,焦点主要集中在终端设备的语音助手以及云平台上。例如车载语音操控、语音电视、手机输入法、聊天机器人、智能音箱、智能家电、智能 IoT 设备等。云平台方面,除 BAT 三家云平台都有各自的语音技术输出外,思必驰专注做语音云平台,科大讯飞也拥有讯飞开放平台。
在这场语音交互战事开始之前, iDST 语音团队用不到一年的时间搭建好所有基础模块,并在阿里内部全面应用起来,从阿里业务中需求最大的智能客服开始,到互联网汽车的语音支持,以及天猫精灵一号、海尔阿里语音电视等硬件终端设备。同时,iDST 的技术也已经通过阿里云赋能其他行业,如有些公司用其技术作客服录音质检,有些做法院庭审记录,有些做医生病例录入设备,有些做直播违规内容筛查。
一个「五脏俱全的产品部门」
鄢志杰于 2015 年 2 月加入iDST,他经历了语音团队从定位到发展路径越来越清晰的过程。「整个语音链条上的所有技术模块,每一个都要跟世界上 State of the art 的技术看齐,这些工作是一定要做的。」鄢志杰表示。在团队眼中,这一年赶超了其他巨头二三十年的进度。不过他们也不否认,其实 iDST 是「站在巨人肩上」。
鄢志杰,2015 年加入阿里巴巴,此前就职于微软亚洲研究院任语音组主管研究员
在鄢志杰看来,这样的速度可能也得益于,阿里的人工智能研究更多是从基本需求出发。阿里是注重产业落地的公司,强调以业务驱动技术发展,技术围绕着产品打转。因此,作为向阿里巴巴集团各条业务线输送人工智能技术的部门,虽然在外人看来 iDST 很像 Google Research 以及微软的 MSR,但其内部的业务模式却有很大的不同。
谷歌和微软的研究院只负责理论与技术的基础性研究,当某个技术有望得到产品化落地时,会被转移到产品部门,研究员们戏称这一过程为「从研究院毕业」。而 iDST 则更愿意称自己为一个「五脏俱全的产品部门」。鄢志杰将部门的组成概括为三个同心环,最核心的环是技术,中间层是产品,最外层是商业化。
就语音团队来说,有一些同学(阿里巴巴称自己的员工为同学)偏向基础研究,有一些同学负责将研究的成果和一些算法模块转变为产品,有一些同学侧重于工程,将产品在实际使用场景下进行打磨。此外,产品经理负责与销售部门衔接,项目经理负责把控工程进度。「我们团队除了销售借助阿里的渠道,其它职能全都有。」鄢志杰说。
更大的不同是,iDST 不完全以发论文为己任。由于团队更看重将技术放在市场上进行真刀真枪的演练,因此在 iDST 看来,论文不是检验技术的最佳标准。「并不是说发了 Paper 这个技术就是好的,我们团队有太多人精于此道,大家在加入阿里前曾经都是写 Paper 的。写完 Paper 接着做什么呢?参加比赛?刷分?」鄢志杰认为,市场才是技术的试金石,论文只是完成好工作同时的一个副产品。
「我们一直旗帜鲜明地认为,iDST 是一个产品部门,而不是研究部门。」鄢志杰说。因此,iDST 能够吸引到一群「想干事,能干事」的人。若要用一个词来形容他的团队,鄢志杰会选择「当打之年」。iDST 招人的门槛很高,聘用的人在他的年龄段中一定是顶尖的人才。来到 iDST 之前,他们中的大多数是主流语音公司、研究院的核心成员,曾经他们环境好、待遇好,非常精细地负责某一个模块的研究;但离落地遥远,又无力推动,觉得自己的工作对全局的影响没有那么明显。
鄢志杰讲到一个有趣的现象,在面试这类候选人的时候,他们中的大多数会问「阿里加班有多严重」,但是真正工作起来,这些人自我驱动的加班比谁都厉害。「因为他们觉得,这就是他们的工作,他们的研究,他们的产品,他们的作品。」鄢志杰说,你能感觉到这些业界一流的专家,有强烈的成事的愿望。阿里给了他们一个平台,让他们能够负责相对容易打通的业务,赋予他们使命感,放大他们工作的成果。
「技术的成色如何,放到市场上一试便知」
由于 iDST 紧密连接业务端,必不可少地需要与外部各条业务线及销售部门进行配合。销售部门会提出需求,iDST 也会向他们推销自己的创意。鄢志杰称后者为「推」,前者为「拉」。他说:「往往既推又拉的东西,最后长出来是最漂亮的。」技术人眼中的「黑科技」往往不容易被销售团队一眼看透,「黑科技」带来的产品,以及产品的商业化落地模式在早期也较为模糊。鄢志杰说,「对外推销自己的创意时,我们有义务多做一点,把 Demo 做出来,让业务部门知道。『哇!原来这东西这么酷。』」当业务部门看到技术创意的魅力时,事情就从只推不拉,变成既推又拉。
除对内的技术支持外,iDST 的技术通过阿里云平台对外输出。这意味着团队需要与市场上其他人工智能解决方案进行充分竞争。鄢志杰表示,内生需求相对外部需求来说,标准没有那么严苛。iDST 将技术带来的市场营收作为团队 KPI 的一部分。鄢志杰笑道,「这听起来确实很裸,但其实是在把事情变简单。技术的成色如何,放到市场上一试便知。」
在阿里云上,iDST 需要对外支持不同领域的行业客户。iDST 的「推」,是告诉客户,或许这几项技术能够帮到他们。当客户在自己的领域,结合自己的专业知识进行评估,挑选出合适的技术时,就会反过来「拉」。阿里云不会被动地把技术扔在平台上,等着用户来用。鄢志杰表示:「这是一个互动的过程,绝对不能被动。」
既推又拉,从本质上来说,是技术与需求的契合。2015 年,iDST 的语音团队在工业界第一个上线 Latency Controlled 的 BLSTM 模型(LC - BLSTM),能够在说话人说话的同时进行解码,解决了传统 BLSTM 模型解码延迟的问题。2016 年底,团队在 LC - BLSTM 的基础上发展出 Low Frame Rate LC - BLSTM,在保证精度的同时,将同等时长的语音运算量压至原来的 1/3,极大地降低了产品的运算成本。鄢志杰介绍道,这是阿里云所面对的特有的问题,很多小公司由于机器数量不多,不会十分在乎这件事情。但云平台不一样,定制化的语音识别服务对成本十分敏感。
得益于 Low Frame Rate LC - BLSTM 的业务不仅仅是阿里云及集团内部,该模型在终端产业中也被应用起来。阿里与上汽成立了一个合资公司名为「斑马」,利用阿里的技术与上汽的车辆,研发车载人工智能系统,大大缩短了研发周期。阿里和上汽荣威合作的互联网汽车即将发布,Low Frame Rate LC - BLSTM 技术也被「一鱼几吃」地用到了车辆的语音控制系统上。在鄢志杰看来,相比已经形成手动输入习惯的手机使用场景,语音交互可能更适合汽车,他说,「在中控显示屏上用手指指点点才能导航、听音乐,这在驾驶过程中非常危险,无异于开车看手机。」
利用 Low Frame Rate LC - BLSTM 技术,将计算量降低至 1/3 的特性,该款车型的主副驾都能语音唤醒并使用语音指令。而此前,这款车搭载的上一代语音产品采用了第三方技术,由于计算能力的限制,上一版本仅能支持主驾唤醒。除此之外,鄢志杰的团队还实现了在汽车这样狭小的空间内的高精度定向拾音,主驾或副驾一方使用语音助手时,不会被另一方的声音打扰。与市面上普通车载语音助手不同的是,该产品是前装车机整体的一部分,能够控制车内的零部件,例如车窗、空调,并能够通过荣威的大屏提供娱乐及地图导航功能。
深度学习的发展使得语音识别准确率大大提升,语音技术刚刚经历了一个巨大的跳变。鄢志杰认为,跳变过后,行业会经历一段时间的缓速爬坡,这是技术发展的规律。在缓慢爬坡的过程中,仍要解决很多问题。
尽管市场对语音交互的热情不减,认为这一领域将会出现杀手级应用。但在鄢志杰看来,「杀手级应用」这个词并不适合语音行业,「说到底,语音交互本身只是一个输入手段。」在移动应用时代,改变人们生活、工作、娱乐方式的应用程序层出不穷,但语音技术和移动应用根本是两回事,语音技术更底层。「重点是找到一个场景,能让用户习惯地用语音技术完成一件事情,再把网络上的互联网内容和服务搬到这个场景上来。」鄢志杰说。
另一方面,语音技术也还不能支持用户与机器的完美交互。以智能音箱为例,用户每次与它对话都需要唤醒,哪怕房间内只有用户和音箱两个「人」;如果房间同时有几个人,音箱想要搞清楚哪句话是对它说的,哪句话不是,这在目前的情况下还有些困难;在当前的技术条件下,音响对用户的声纹进行识别需要用户连续说 4-8 个字,才能达到 90% 的准确率,这个数字在支付场景下是远远不达标的。在支付场景下,用户希望声纹识别的准确率为 99.9%。但按当前的技术水平,要想达到 99.9% 的准确率,用户可能需要对着机器朗诵一份「人民日报」。另外,虽然目前语音输入在法庭以及医院这类「规规矩矩说话」的场景中已经能够落地使用,但对于类似热烈讨论的会议场景这样的复杂环境,识别出来的文字稿件依然惨不忍睹。
在理解层面,NLP 技术本身有很多瓶颈需要突破。但普遍来讲,NLP 仅针对书面语,常被用在搜索引擎中。在语音技术需要处理的口语场景中,SLP(Spoken Language Processing)技术需要解决 NLP 之外的一些问题,比如口语的重复、修改、语气词等特有属性,还要对语音识别本身的错误具备一定的鲁棒性。
更多地,语音怎样与视觉、情感结合,形成更多元化的交互模态;用户的语音数据怎样被回收,形成一个环路,让系统越来越智能;怎样做更低成本、更小规模的数据标注;怎样在半监督、甚至无监督领域取得更多的研究成果,并落地。在鄢志杰看来,这些都是值得下功夫去研究的挑战。