图片来源于2019年11月,百度语音引擎论坛 我们仍从传统方法说起。对于智能音箱,唤醒是一个重要的问题。目前业界采用的低功耗唤醒方案常用的方式是两级唤醒。第一级唤醒计算量很小,主要用于监听,是全天候运转的。第二级唤醒计算量很大,是在发生可能疑似唤醒的时候来做决策。通常用的低功耗芯片的远场语音交互解决方案,都是低功耗芯片部分只承载第一级唤醒,这样全天候的监听过程不会耗电特别多。如果发生疑似唤醒,跑在一个更强计算力的主芯片上的第二级唤醒再进行第二次检测,最终确定唤醒是不是发生。这样的两级机制,使得主芯片的算力和资源都要向第二级唤醒倾斜。需要指出的一点是,智能音箱的上述两级芯片都是基于ARM芯片,这种芯片做语音唤醒和识别,一方面是成本很高(因为对计算能力要求较高),另一方面功耗也很高。一般来说,平均功耗在 1 W 以上。针对这样的问题,显然设计出一款专用的语音交互芯片,1)通过自定义指令集,来提升算力;2)更重要的是,把所有原来跑在主芯片上的语音交互全部放在这颗芯片中,从而主芯片无需再承载复杂的语音交互的计算功能,这可以显著节省语音交互部分对整体资源的占用;同时主芯片也可以选择比较廉价的芯片。