编者按:8月,微软宣布其语音识别系统错误率进一步降低到5.1%,显著优势、迅速突破,堪称是行业新的里程碑。语音识别的高地战火不熄,各大研究团队和企业纷纷加入团战,展开争夺小数点优势的语音识别“军备竞赛”。
0.1%,0.2%,看似甚至可以忽略不计的数字背后有何意义?5.1%的错误率到底意味着什么?微软语音和对话研究团队负责人黄学东将一一为你解答。本文转载自公众号“新智元”。
从达到人类水平到超越人类水平,微软只用了不到一年的时间,这是人工智能研究领域的一项突破性进展。在微软语音和对话研究团队负责人黄学东的带领下,微软语音识别研究团队去年将语音识别的词错误率降至5.9%,又在最近降至5.1%。黄学东认为,从研究角度来说,这个意义十分重大,即便是0.1%的差距,无论是运算量还是时间,耗费都是巨大的。
从研究层面来说,这的确是一个很了不起的突破。就像黄学东曾在微软博客上所说:“去年10月,在我们的转录系统达到5.9%的错误率之后,其他研究人员在此基础上分别进行研究,采用了更多参与的多转录程序,成功在语音识别准确性道路上更进一步,随后微软也将错误率降低至5.1%。这是一个新的行业里程碑。”
需要说明的是,黄学东博士这个“语音识别错误率低至5.1%”的成果是建立在Switchboard这个通用测试数据集上面的。黄学东介绍,这是一个全球语音研究人员用了20多年的开放数据集,包括了大约2400个自然情形下的对话,甚至是各种年龄阶段,且覆盖了美国主要的一些地方口语。因此,很多不同的技术公司与组织都喜欢在上面做语音方面的相关研究。
而根据黄学东的介绍,其带领的微软语音识别团队又为改进语音模型引入了 CNN-BLSTM (convolutional neural network combined with bidirectional long-short-term memory,带有双向LSTM的卷积神经网络)。另外, 他们在帧/句音级别和单词级别层面都使用了结合多个声学模型的预测方法,通过使用整个对话过程来加强识别器的语言模型,以预测接下来可能发生的事情,使得模型有效地适应了对话的话题和语境。
同时,其团队也使用了微软认知工具包Microsoft Cognitive Toolkit 2.1 (CNTK),用于探索模型架构和优化模型的超参数。
当然,微软对云计算基础设施(特别是Azure GPU)的大量投资,也有助于提高其训练模型并测试新想法的有效性和速度。
不过,虽然5.1%是黄学东口中“前所未有的成果”,先前也曾有语音识别团队宣布测出过差不多的好成绩——5.5%的语音识别错误率。但事实上,他们的衡量标准和微软并不一致:他们是通过四个不同团队标注后得出的最好结果,而微软在去年测试中达到的5.9%错误率则是一个团队取得的成绩。
“从去年开始,微软系统达到的错误率为5.9%,而今年微软这个水平(5.1%)实际上已经超越了一群人的水平。如果让一个普通人来识别,然后统计他的错误率,那绝对达不到5.1%,这是需要几个人联合攻克才能做到的水平。”
此外,谈到有其他团队已经实现了3.7%的短语识别错误率,黄学东表示这其实与微软5.1%的对话式语音识别错误率也不一样:“像我们这样的交谈就是对话识别,因为用的词都比较开放,这个难度比单个的短语测试要难得多。”
尽管Switchboard有着全球开发人员多年来的技术积累,其仍然是一个有限数据的集合,主要用途就是用来做研究与测试。换言之,这个研究结果就是一个实验室中的“培养基”。如果将其“移植”到现实环境中,质量必然会遇到硬件设计架构与嘈杂自然环境的多重“降维打击”。
黄学东在演讲现场介绍了微软与哈曼卡顿合作的智能音箱
譬如以最近被巨头们疯狂爱上的智能音箱为例,其“远场”应用需求与真实环境中存在的混响、多径反射会严重降低这种硬件拾取声音信号的质量,这对于后续的语音识别率而言可见意味着什么。
就像黄学东所说,用于研究发表的文章与现实的产品算法虽然不能完全割裂,但这完全是两个不一样的“系统”,他们仅是通过这种研究的发布,来了解究竟有没有更多新的技术,有没有今后微软的产品可以借鉴的东西。
而从微软现有的语音产品来看,Cortana在语音识别上的表现已经在诸多市面上的“语音助手”中非常拔尖了,而基于微软Azure提供的与语音识别相关的多种认知服务API也获得了客户的很多好评,这些产品应用的算法模型都涉及到了黄学东团队的研究成果。
在语音识别、图像识别的领域,大家的识别率基本上都是那个小数点后一位或者小数点后两位的区别,这个区别可能并不意味着什么。那么千分之一的差距,究竟有没有价值?大概可以这么说,研究肯定有,而对于“落地”,则是有限的借鉴性。
按照黄学东所说,从研究角度来说,这个意义十分重大,即便是0.1%的差距,无论是运算量还是时间,耗费都是巨大的:“你知道0.1、0.2、0.3的差距要跑多少时间才会达到,错误率的计算应该按照相对错误率来看,5.9到5.1相对错误率应该是13%左右,相对错误率超过13%,统计上已经有重要意义了。”
但对于消费级产品与商业场景来说,这种准确率和错误率之于前者,黄学东认为完全是两码事儿:“还是我刚才的说法,这种公开性的测试,发表的论文,与产品的最终效果,是不一样的评判标准。”
从目前来看,大公司之间通过“语音识别军备竞赛”带来的差异性优势正在不断缩小,而现有的大多数硬件与智能服务的交互体验仍然有很大缺陷的原因,应该要归于在“语义识别”方面大家还在止步不前。
譬如黄学东在9月7日由中国工程院信息与电子工程学部主办的首届人工智能计算大会(AI Computing Conference,简称AICC)的演讲中,在现场为我们演示了一个PowerPoint内置的实时翻译插件。尽管黄学东博士的英文发音很标准,吐字清晰,但翻译出的中文还是会存在一些小错误。黄学东表示,其实际的翻译效果与专业的同声传译相比,还是有一定距离的,而这里面就与自然语言理解有更多关系:
“这个插件的效果虽然没有达到专业水平,但是,很多时候大家在做PPT演示的时候完全听不懂英文怎么办,基本上你通过它的翻译可以知道80%的意思,即便它的精准性还没有达到很高。”
“而机器翻译肯定不是完全的语音识别,你看‘机器速记’的效果可能更好一些,但翻译就会比较生硬,它需要“读懂”语义才能更加准确,这是我们下一个要面临的巨大挑战。现在机器翻译与人的差距还有很大,是因为自然语言处理还远远没有达到人的水平。”
其实早在今年8月微软宣布这个成果时,黄学东就在文章末尾谈到了目前在计算机语音研究领域面对的重大挑战仍然有很多,例如在嘈杂环境下较远的麦克风的语音识别,方言识别,或训练数据有限的语音识别或较少人使用的语言的语音识别,这些都仍未达到人类水平。
“我们在教计算机不仅是转录语音,而且在要了解话语的意义和意图方面仍有很多工作要做。从识别语音到理解话语,是语音技术的下一个主要挑战。”
你也许还想看:
● 微软对话语音识别技术达至人类专业水平,开启人工智能新征程
感谢你关注“微软研究院AI头条”,我们期待你的留言和投稿,共建交流平台。来稿请寄:msraai@microsoft.com。
微软小冰进驻微软研究院微信啦!快去主页和她聊聊天吧。