依图做语音了！识别精度创中文语音识别新高点

会员服务 ·

依图做语音了！识别精度创中文语音识别新高点

2018 年 12 月 12 日 新智元

新智元报道

编辑：闻菲

【新智元导读】依图强势进军智能语音，联合微软发布语音开放云平台，携手华为发布软硬件一体化的智能语音联合解决方案。依图语音识别算法在全球最大开源中文数据库AISHELL-2上词错率仅3.71%，比原业内领先者提升约20%，大幅刷新现有纪录。比对各家语音识别算法，当今智能语音战场，英雄唯讯飞与依图尔？

2018年底，智能语音市场意外杀入一匹黑马。

素来被认为是“人脸识别独角兽”——或者更宽泛一点说，“计算机视觉独角兽”的依图科技，公布了他们中文语音识别技术的最新突破，以及令人瞩目的产业布局。

技术上，在全球最大的中文开源数据库AISHELL-2中，依图短语音听写的字错率（CER）达到3.71%[1]，相比原业内领先者提升约20%，大幅刷新现有纪录。

产业上，依图联合微软推出基于Azure云服务的语音开放平台，并携手华为发布软硬件一体化的“智能语音联合解决方案”，将依图语音识别技术提供给第三方应用开发者。

依图首席创新官吕昊博士

“语音一直以来都是依图关注的课题。作为对人工智能有着深入理解和推广应用的公司，我们自然而然进入语音识别领域。”依图首席创新官吕昊博士表示，依图是一家“人工智能公司”。

“作为语音行业的‘新生’，我们还是有很多向‘老生’学习的地方，但我们立志推动行业创新与发展，做世界最好的中文普通话语音识别技术。”

智能语音竞争还未开始，依图要做世界最好的中文语音识别

万物互联，语音为先。

语音识别是AI理解世界最重要的组成部分，也是AI能听会说善理解的必要条件。

近年来，深度学习的爆发驱动了语音识别技术的高速发展，催生了一大批智能语音创业公司，其中不乏实力强劲的竞争者。

除了中国智能语音“一哥”科大讯飞，百度、阿里、腾讯、京东等企业纷纷推出了智能语音产品，再加上雄踞国际战略高点的亚马逊、谷歌、微软……2017年底掀起的智能音箱“百箱大战”硝烟还未褪去，依图为何选择这个时间点入局？

“我觉得竞争都还没开始，不存在入场的问题。”依图科技联合创始人林晨曦在2018年1月接受新智元采访时说。

智能语音市场看似巨头林立，但林晨曦认为创业公司大有可为，依图不仅要做语音和自然语言处理，还要做到像人脸识别那样，超越人类水平。

依图技术负责人表示，尽管一些机构宣传其语音识别已经达到乃至超越了人类水平，但多数情况下，这些结果都来自安静、近场等受限场景。

“机器在语音环境比较理想的情况下是可以识别某些生僻词，或者在专有名词等识别方面比人强。但人的鲁棒性还是强于机器，人在熟人且熟悉领域上的语音识别还是明显能够做过算法。”

目前语音识别仍然存在很多瓶颈，例如在发音不清楚的情况下，如何结合更强的上下文语义信息给出准确的语音识别；如何在语音识别的全链路上，优化远场识别的性能；特殊情况的处理，比如人称代词、语气词助词；还有鸡尾酒问题（多人同时说话下，能够准确识别其中一人的语音）、电话场景的识别（低采样率下的语音识别）。

此次依图科技在语音识别技术方面的突破，不仅意味着依图首次涉足语音识别领域便已经跻身中文语音识别第一阵营，同时也说明语音识别在技术层面还有足够的进化空间，远远没有达到“超越人类”。

依图预计，在未来6个月到12个月，语音识别技术的算法性能将呈指数级增长，更多的场景将被解锁，为行业应用带来更大的价值。

科大讯飞和依图属于第一梯队，BAT差得远

作为进军智能语音的第一步棋，依图发布了“听写大会”微信小程序，它能将时长不超过60秒的语音转写成文字，支持普通话，并且兼容多种口音。

“听写大会”微信小程序：业界也属于首次公开透明地比对各类算法的水平差异

不过，“我们希望大家不要仅仅是关注在API本身，”依图首席创新管吕昊表示：“我们希望借助这个API，让大家去关注到整个语音识别行业的发展情况。”

吕昊说，一直以来语音识别业界都没有公开透明的语音识别比对，通过“听写大会”微信小程序，用户可以直观感受到各家语音识别技术的真实表现，在业界也属于首次公开透明地比对各类算法的水平差异。

讯飞依图BAT各家算法差异巨大，讯飞依图位列第一阵营

“目前语音识别业界存在两种认知误区，”吕昊说：“一种是极端的好，也就是各家都好没有差异；一种是极端的差，认为都不能解决问题。”

实际情况是，“科大讯飞的语音识别能力比BAT领先很多。在场景测试中，除了依图和科大讯飞之外，大部分厂家的算法字错率抖动大，意味着场景的通用性差。”

依图此次推出的中文语音识别算法，与业内原有领先者相比，不仅大幅提升了识别准确率，而且在单个算法模型上，有极为出色的多场景适用性表现。

一般认为，中文语音识别的字错率低于3%时不会影响可读性，而超过15%则毫无可读性。这是语音识别的两条红线，在不同场景下，不同算法的表现可能会有很大差异。

在全球最大中文开源数据库AISHELL-2[2] 的三个测试子集，以及来自第三方的近场口音测试集（Accent）、近场安静聊天测试集（Chat）、语音节目测试集、电话测试集、远场测试集等测试场景中，依图均处于业界领先水平，而且字错率几乎全部在15%以下。

其中，在AISHELL2的-2018A-EVAL数据集中，依图的识别准确率高达96.29%，字错率仅为3.71%，领先第二名约20%。

这意味着依图在语音领域做到了第一梯队 (甚至是领先) 的水平，在多场景的适用方面，也体现出显著优势。

左有微软，右有华为，用技术想象力撬动语音市场

“依图的语音API产品和语音开放平台刚刚上线，我们欢迎越来越多的开发者和客户使用依图的产品，共同改进产品性能，并探讨更具突破性的应用场景。”吕昊说。

关于未来预计推出的语音产品及其功能，吕昊表示，“实际上，我们认为技术和场景是比产品和功能更关键的要素，推动了技术发展进步，我们才可以领略到以前看不到的更多可能性，解决很多以前想象不到的问题。今天语音识别跟人类的能力还有巨大的差距，依图希望能够携手业界共同推动行业进步。”

发布会上，依图宣布与微软Azure云服务联合发布语音开放平台，将行业领先的语音识别技术能力开放给第三方应用开发者。此外，依图还将与微软在智能语音领域展开更深层次的合作，共建AI生态。

2018年4月，微软全球执行副总裁沈向洋（右）访问依图。依图科技联合创始人、CEO朱珑（左）曾在微软亚洲研究院（MSRA）研发人脸识别算法，导师就是沈向洋。依图科技联合创始人林晨曦，业务技术副总裁吴岷，研发总监周健等也都来自MSRA。图片来源：依图科技

与此同时，依图也携手华为联合发布“智能语音联合解决方案”，该方案基于依图语音开放平台，以及华为全栈全场景 Ascend（昇腾）系列芯片和面向数据中心侧的 Atlas 300 AI加速卡，将双方强大的技术研发能力与生态服务能力深度结合，形成软硬件一体化的联合解决方案，进一步帮助提升开发效率。

自2016年成为合作伙伴以来，依图和华为已形成全方位联动。今年3月，双方共同发布“华为－依图视频云人像大数据”解决方案，布局全球城市级公共安全。10月，2018华为全联接大会期间，依图作为大会安保唯一AI合作伙伴，与华为联合发布了分支视频云联合解决方案、智慧警务云解决方案和智慧园区解决方案，在平安城市、智慧警务、大数据应用等方面持续加深合作。

10月9日，华为轮值董事长徐直军（左二）、华为安平系统部总裁岳坤、华为企业BG行业Marketing与解决方案总裁喻东（左三）等一行到访依图。来源：依图科技

此前，有传言微软Azure云服务在中国的数据中心将使用华为的昇腾芯片，这一消息尚未得到证实。但本次由依图串接起来的微软、华为合作链，不禁让人浮想联翩。

根据2018中国语音产业联盟年会上周发布的《2017-2018中国智能语音产业白皮书》，全球智能语音产业规模持续增长，2014年至2018年，中国智能语音产业规模由30亿元增长至159.7亿元。

左有微软，右有华为，再加上自身的技术，依图在智能语音开局便凑齐了一手好牌。

最后要说的是依图科技的首席创新官吕昊。吕昊今年2月加入依图，之前是谷歌的研究科学家。根据依图科技官方介绍，吕昊在谷歌期间曾负责孵化安卓APP启动推荐系统，这是全球首个移动端APP启动推荐系统，也是全球首个基于机器学习的安卓产品。他会带领依图与华为孵化出怎样的智能语音联合解决方案？

林晨曦曾表示好的人才需要对未来充满想象力，朱珑也在文章里写因为看见，所以相信——现在这句话基本成了依图的Slogan。

“99%识别率的算法和99.99%的算法，区别在于可解锁的应用场景，对技术商业价值的想象力将回答AI的场景在哪里以及多快到来。”

“我们认为，目前语音识别仍处于初步发展的阶段，依图将始终保持在技术层面的投入，通过技术的突破来解锁更多的可能，也欢迎合作伙伴与我们共同探索语音技术的行业应用。”吕昊说。

注释

[1] 一般在英文语音识别中用“词错率”（WER），因为最小单元是词；中文语音识别一般使用“字错率”（CER），因为最小单元是字.

[2] AISHELL-2是AISHELL Foundation和希尔贝壳创建的开源数据库，含有1000小时中文语音数据，由1991名来自中国不同口音区域的说话者参与录制，经过专业语音校对人员转写标注，通过了严格质量检验，数据库文本正确率在96%以上，录音文本涉及唤醒词、语音控制词、智能家居、无人驾驶、工业生产等12个领域.

更多阅读：