作为搜狗语音交互补充的唇语识别发展到哪一步了

会员服务 ·

作为搜狗语音交互补充的唇语识别发展到哪一步了

2017 年 12 月 25 日 雷锋网 吕倩

文 | 吕倩

来自雷锋网（leiphone-sz）的报道

无声的世界里，你只要动动嘴唇，就可以被识别出说了什么、甚至被转化为语音，是不是很智能便利、同时又颇为惊悚？

今年12月，第四届世界互联网大会，搜狗发布唇语识别技术，也系业内首次公开演示。其背后的商业逻辑是什么？这项技术发展到什么地步了？

一、为什么要做唇语识别

搜狗语音交互技术中心负责人陈伟首先回顾了搜狗在语音交互方面的发展历史——早期搜狗于移动时代主要做两件事——输入法与搜索。后来进入智能时代，设备由手机变为IOT设备，人与智能硬件之间的连接也变为搜狗知音引擎这样的自然交互引擎，而硬件、信息，或更深度信息之间的连接，则是利用深度引擎来连接。

于搜狗语音交互整体而言，语音、翻译、识别合成技术，以及目前刚刚公开的唇语识别，均系搜狗语音识别大框架之下的内容，“这也体现了搜狗目前人工智能战略即是自然交互与知识测算。”

至于搜狗知音引擎自去年8月3日发布之后，到如今的一年多时间里，已形成三个解决方案：

语音听写解决方案；
语音交互解决方案；
语音翻译解决方案

陈伟表示，就本质而言，听写技术的作用就是将语音转化成文字，而如今搜狗发布的搜狗听写，则是希望通过机器的方式，自动将人的语音转化成文字。具体落地上，搜狗听写技术已经落地上百场会议，包括法院评审等工作。

而听写模块的语音交互，则结合了语音识别、语音合成与语音理解的能力，应用于不同刚需场景，包括手机、移动端穿戴设备、车载后视镜与车机等，也包括后续会应用的智能家居。

直到此次世界互联网大会，搜狗CEO王小川演示了最新语音同传案例与唇语识别技术，陈伟表示，除了同传，现场最称得上黑科技的，就是搜狗唇语识别技术了。

回顾唇语识别技术的研发起始，陈伟对雷锋网称，当初主要考虑着，围绕搜狗主路线上的工作，将图像和语言进行打通，实现从图像中转化出人讲话中的信息 ——“这也是对唇语识别的整体思考，以及对应整个知音引擎产品思考上的唇语识别的一个位置。”

王小川则表示，“因为搜狗搜索和输入法其实都在跟语言打交道。一方面帮助人们用语音表达，另一方面通过语言获取互联网上的信息，但在一些嘈杂、甚至无声的环境里，语音所能发挥的作用是有限的，于是在这种情况下，搜狗决定发展基于视觉的语言识别能力作为补充”。

具体应用上，就是将语音识别与唇语识别相结合，在噪音特别强的情况下，让后者辅助前者，形成包括视觉、音频、唇语在内的多模态输入。

目前，陈伟对雷锋网表示，在解决噪声问题上，仍是麦克风阵列比唇语识别更靠谱。在落地速度上，麦克风阵列已然落地，而唇语识别刚刚启动研发第一步，之后将要进入与音频结合解决降噪问题的阶段。

但唇语识别有其独特的场景优势，例如，当周围过大噪音造成语音指令无法被准确捕获、识别时，唇语识别可以帮助规避这一影响，确保输入的准确率，保证交互的稳定性；在安防领域中，由于目前很多监控场景，如电梯、马路中只有摄像头没有麦克风，通过唇语识别技术，则可以获取重要的用户讲话信息，为公共安全提供有效支持；此外，搜狗唇语识别还能服务于听障、失语人士等。

综合来讲，陈伟表示，目前搜狗唇语识别主要应用于两大场景：

其一，在多数语言场景下，摄像头的覆盖率远远高于麦克风，但通过摄像头获得的图像数据主要用于监控简单的行为，很难在安防等场景中，精确了解图中人物在说什么，但使用唇语识别技术就可以通过嘴的动作获取大量内容信息；
其二，唇语识别可以作为辅助技术，提升语音识别技术现阶段的准确率。搜狗的唇语识别技术目前在开放的口语测试级上可以达到50%-60%的准确率，在限定场景中可以达到90%。

二、发展状况与难点

相较于采用传统模型来研究唇语识别技术的英国东英吉利大学，搜狗选择了采用深度学习的方式来做，主要围绕着：

一，到底用了多少数据
二，算法复杂度有多高，储存能力有多强
三，应用场景到底是什么

那么唇语识别的难点在哪里呢？

第一，陈伟表示，语音交互准确率低的问题一直没有解决，很大原因就是语音噪声问题无法解决，加入安置到安静场景中，就可将准确率提高到97%的高度。也就相当于近场语音听写的过程，但这种理想状态是很难实现的。

为了解决这个问题，陈伟表示，搜狗提出两种方式：

一是通过硬件的方式，比如团队正在做的麦克风阵列，通过增强语音信号的方式，将噪声屏蔽掉，提升语音识别准确率。
其次，绕开噪声，能动性地添加多模态信息，也就是所谓的在唇语识别外添加视觉信息
第二，目前的人工智能多是机器模仿人，但弱人工智能很难实现对人类的超越。“也就是读唇这件事光看唇动的话，并不是一个非常明显的特征，往往依赖于上下文语言的信息。”

此外，陈伟表示，普通话有4个调，而英文没有调，因为英文基本的发音单元在50个左右，而中文如何声韵母切开来看的话，如果详细建模至少在200个左右，所以发音单元之间有很大的差别。

最大的难点则在于泛化能力的训练。陈伟以Google举例称，Google的泛化是基于2010年至2016年整个新闻访谈训练集的数据，在闭集训练内，准确率可以保证为较高水准。比如搜狗早期针对新闻联播级主持人的泛化训练，其准确率可达70%以上。

陈伟对雷锋网表示，基于开放口语测试级时，基本可以保证50%-60%的准确率，而在垂直场景下，由于语音相对来说不会太发散，准确率可以相对提高，比如在车载与智能家居场景下。

至于唇语识别是否会涉及到用户隐私安全这个问题，陈伟表示，目前技术发展状态还未到该阶段，搜狗正在探索唇语识别与哪些具体刚需场景结合。

◆ ◆ ◆

相关内容

搜狗

关注 1

搜狗凭借对前瞻性技术趋势的把握和敏锐的市场嗅觉，已经成为中国互联网的创新典范，也是最具发展潜力的公司之一。搜狗的产品围绕互联网的最基础应用，其中输入法、浏览器、搜索三大产品均名列前茅。2010年8月9日，在引入阿里巴巴集团和云峰基金等战略投资者之后，搜狗从搜狐分拆，成为独立运营的公司，王小川出任搜狗首席执行官。

【CCF计算机视觉专委会】未来5-10年计算机视觉发展趋势，

专知会员服务

104+阅读 · 2020年5月20日

【综述】计算机视觉驱动的时尚研究，35页pdf带你了解领域最新进展

专知会员服务

38+阅读 · 2020年4月2日

多模态深度学习综述，18页pdf

专知会员服务

220+阅读 · 2020年3月29日

2019年人工智能发展白皮书，中国科学院大数据挖掘与知识管理重点实验室，附47页pdf

专知会员服务

162+阅读 · 2020年2月27日