业界 | 不只是朋友圈的「网红」，猎户星空的AI技术已落地小雅、小米两大音箱和Live.me

2017 年 10 月 23 日 机器之心

机器之心原创

参与：高静宜、藤子

前段时间，一个来自猎户星空的工程师在工位上安装了一套人脸识别系统用于侦测老板的出没，这条消息霸屏程序员们的朋友圈。实际上，猎户星空的人脸识别已在门禁、手机等生活场景中落地。此外，其语音技术已能实现全链路远场景交互，并已应用于小雅音箱，并为小米音箱提供了语音合成技术。

白发苍苍的老人修剪着盆景：「小雅，给我来一段《沙家浜》吧。」小雅播放了《沙家浜》，并根据老人的要求调高了音量。

小女孩趴在桌子上：「小雅，我想听昨天的《黑猫新警长》。」小雅告诉小女孩，《黑猫新警长》没有更新，随后推荐了小女孩喜欢的另一个节目。

年轻男人手捧着书：「小雅，我想不起来刚刚在车上听到哪了。」小雅回答：我记着呢。然后播放了此前听到的地方。

年轻女人正在梳妆：「小雅，我今天穿什么好呢？冷吗？」小雅告诉她当天的气温。

小雅是猎户星空联合喜马拉雅推出的智能音箱，在这四个场景中，她展现了智能推荐、断点续播、天气查询等功能。而这背后，是猎豹移动旗下人工智能公司猎户星空提供的全链路远场景交互系统「猎户语音 OS」。

「今天大家都在讲 AI，原来在技术和用户需求间还隔着一个产品，这正是今天 AI 产业有机会变成一个产业的真正落地点。我们要做这样的一家公司，不仅要做技术上的大投入，更要真正做出让用户感动的产品。」猎豹移动 CEO 傅盛在小雅音箱发布会中说。

「从猎户成立到小雅音箱面世，差不多花了一年。」猎豹移动首席科学家闵可锐回忆道。闵可锐曾参与微软搜索引擎、稳健主成分分析方法的理论与应用研究，并在美国谷歌参与 AdSense 基于内容广告建模组点击率预测，改进原有的预测模型。

智能音箱小雅背后的技术揭秘

2016 年，根据研究机构 CIRP 的统计，Amazon Echo 的销量截止当年 4 月，突破 300 万台，而第三方开发者为 Echo 内置的语音助手 Alexa 开发的技能已从最初的十来个增加到数千种。

Echo 的成功让 2016 年 9 月成立的猎户星空看到了这个领域的需求、机会和巨大的潜力。「作为语音交互的入口，智能音箱可以被看成向外延伸的中枢，将设备串联起来。」闵可锐说，「智能音箱产品本身就具有持续的黏性，在某些场景中，对用户具有非常高的价值。我猜，智能音箱的市场可能会马上起来，竞争爆发，然后可能会形成一种比较稳定的格局。」

据闵可锐介绍，智能音箱的语音交互系统主要包含远场唤醒、语音识别、语义理解、垂直搜索、语音合成等关键技术环节。「在此之前，我们还会做大量的信号处理工作。」他补充道，对于混响的抑制、噪声的抑制以及语音信号的增强有助于为后续的唤醒及识别等环节提供质量更好、更干净的数据。

唤醒率和误唤醒率是用户评估语音交互系统性能的重要因素，这也是猎户星空重点研究、打磨的方向之一，在闵可锐口中具有「较高的优先级」。这其中涉及两个环节，一是把信号处理的足够干净，二是利用这些被处理过的信号进行唤醒建模。

「猎户语音 OS」的唤醒技术上会采用基于汉字整体建模的卷积神经网络模型进行语音特征的提取，能够在正常的情况下实现 95% 以上的唤醒，还会挖掘一些正例和负例分别对模型进行训练。其中，正例可以通过众包的方式采集到，负例则往往需要通过数据挖掘的方式得到相应的训练集。闵可锐透露，目前业内语音数据量基本都在万小时以上，猎户星空亦是如此。

「这其实是一个多级的神经网络算法模型，因为在唤醒的过程中，有噪声的数据是没办法让你对应出音节中的声母或是韵母的，需要多个模型进行过滤。」他解释道，在真实场景下，环境的嘈杂程度、音箱正在播放的音量、用户与音箱的距离等都会对唤醒产生较大的影响。例如，在距离音箱 5 米远的情况下，唤醒率往往会低于 2、3 米。如果旁边有一台电视，那电视的分贝通常还会高于用户唤醒的音量。另外，远距离的声音衰减是超线性的。在这种情况下，信号处理算法以及麦克风阵列都是非常重要的，共同决定了唤醒率结果。

谈到语音识别技术时，闵可锐表示，在三年前，语音识别技术还处于比较早期的阶段。近年来，算法的持续改进以及数据的不断积累使得语音识别技术逐渐成熟起来，准确率达到大家可接受的范围。

他介绍，虽然目前大家可能认为深度学习的应用可能更多聚焦于图像处理方面，也是首次在这个领域成功完成大规模的图像分类任务。但其实在那之前，深度学习就已经在语音上有所应用了。他认为，语音领域的活跃程度之所以低于视觉领域的发展，是因为相比之下语音的门槛较高，主要表现在大规模真实数据的缺失、算法本身的能力以及计算力的限制这三个方面。事实上，这也是深度学习存在的三个问题。

在数据方面，猎户星空一方面会使用小雅音箱反馈回来的数据，这些用户的真实数据具有很高的价值，另一方面，团队还会以购买的方式或是自己录制获取数据。在算法方面，猎户星空的语音识别部分采用端到端的深度学习模型，不断进行算法模型的改进。目前，基于多层单向 LSTM 上下文无关音节建模，小雅音箱的点播准确率已经可以达到 90% 以上。另外，猎户星空也会结合一些具体的使用场景，把通用的语音识别引擎置于智能音箱的交互场景中进行迭代更新。

闵可锐举了一个例子。在小雅音箱的全链路语音交互系统中涉及大量的用户操作指令，需要对「暂停」、「播放」等命令词进行识别。传统在做语音识别技术时，只需要对一个单独的音频进行识别，再转化成对应的文字即可。但在实际场景中，在用户提出「暂停」时，音箱有很高的概率是在播放一首歌或是一个电台的节目，所以很多指令其实是跟音箱状态密切关联的。为此，研发团队会在原来的基础上增加一个音箱状态的维度，这有助于系统更好地利用上下文信息，从而实现具体应用场景下的语音识别和理解。

「在语音的理解上，针对不同的技能，需要不同的自然语言处理（NLP）模块完成任务，解决的问题可能会更特定一些。」闵可锐解释道，例如用户在听歌时，系统可能就需要考虑哪些歌曲热门、用户的偏好、哪些歌曲不热门但是位于用户的歌单之中。综合考量这些信息后，系统要判断出用户在发出命令时最想听的是哪首歌。「这背后需要大量的工作。」闵可锐表示，在这一过程中存在两个问题，包括查询的泛化以及干扰词的影响。另外，自然语言处理需要海量数据的支持，如何自动地把非结构化数据转化成结构化数据也需要解决的一个问题。这其中，通过抽取维基百科上的信息是团队的手段之一。

此外，猎户星空还为小米音箱提供语音合成技术，小米音箱的甜美女声「小爱同学」就由猎户星空打造，不仅可以媲美真人发声，还能在中英文之间无缝切换，被誉为「最温暖的 AI 声音」。此前，小米联合创始人王川也曾在接受采访时对猎户星空给予了高度的肯定。闵可锐表示，由于合成出来的声音是能够直接与用户产生联系的，所以团队非常看重声音的选型，也在这方面投入了非常多的时间和精力。

「智能音箱的定位相当于一个个人助理的角色，我们会以这个原型出发，思考什么样的声音符合它的定位。」闵可锐介绍，团队经过了上百人的面试才选定了最终的声音方案。他表示，人们对声音的评估通常会带有主观性。目前，团队内部也在进行一些名人声音合成的实验，之后也会有人工打分的过程。「从技术的角度讲，合成不同的声音并不是一件棘手的事，难的是把辨识度、清晰程度、甚至一些情感因素都综合考虑进去。」

闵可锐认为，合成的声音还是要从场景出发。比如在新闻播报的时候，甜美的声音可能就不是那么合适。他透露，团队正在致力于研究根据场景适配不同的声音，之后可能会推出相关产品。未来在语音合成方面，猎户星空将把升级和改进的重点放在两个方面。一是情感、重音等方面的表现能力，力求让声音更加自然。二是从降低数据标注数量的角度，团队希望使用原来数据量的十分之一、百分之一就可以完成语音的合成。这也是团队未来几个月内的研发重点。

除了为小雅音箱提供了全链路的远场景语音交互系统「猎户语音 OS」，为小米音箱提供语音合成（TTS）及语音识别 (ASR) 技术，猎户星空还与美的、海尔建立合作，联手打造智能家居生态，全面接入美的，支持其多类别产品。

图像识别技术已应用到门禁、手机等生活化场景

事实上，除了语音技术之外，猎户星空在视觉方面的探索也已实现落地。在猎豹移动 CEO 傅盛的愿景中，他的目标是打造机器人，将人类从劳动中解放出来，实现机器人与人类的友好共存。

语音和视觉，无疑是机器人必备的两大能力。因此，从一开始，猎户星空就把研发的重点部署在了这两大领域。在猎户星空成立之初，团队就开始投身人脸识别领域的研究和探索，不仅在今年的 LFW 人脸识别评测中取得了前三名的成绩，用单个 Resnet50 模型就达到了 99.65 % 的准确率，还在微软研究院主办的百万名人识别子命题（有限制类）的竞赛中夺冠，得到 0.75／0.606（random set／hard set）的高分。

目前，猎户星空的图像识别技术已经应用到了门禁、手机等生活化场景中。「这里面有很多基础技术是比较相通的。例如，如何构建全新的网络模型、实现大规模数据的训练、把模型移植到嵌入式设备中，压缩模型降低功耗等等。」闵可锐表示，这些基础性图像模块不仅可以用在人脸识别上，也可以应用到其他领域，结合到现有的产品中去。

直播产品 Live.me 就采用了猎户星空的人工智能技术，不仅可以通过技术检测识别出儿童和情色信息、官方 Logo、广告等信息，大幅提升了直播的审核效率，还能利用性别、人种、类型等标签对主播进行分类，完善用户画像。基于这样的分类，直播平台能够更加精准地了解用户喜好，为用户进行个性化的内容推荐，有助于提升直播平台的人均观看时长。