新一代端侧声音过滤方案:VoiceFilter-Lite

2020 年 12 月 8 日 谷歌开发者

文 / Quan Wang,Google Research 软件工程师


语音辅助技术依靠精准语音识别来确保对特定用户的响应能力,让用户可以通过语音命令与设备进行交互。但是在多数真实世界案例中,这类技术的输入往往包含重叠语音,为许多语音识别算法带来巨大挑战。我们在 2018 年发布了 VoiceFilter 系统,利用 Google 的 Voice Match 功能,让人们通过注册个人的声音更好地实现与辅助技术的个性化交互。

  • VoiceFilter 系统
    https://arxiv.org/abs/1810.04826

  • Voice Match
    https://blog.google/products/assistant/tomato-tomahto-google-home-now-supports-multiple-users/

  • 注册个人声音
    https://www.blog.google/products/assistant/more-ways-fine-tune-google-assistant-you/


虽然 VoiceFilter 方式非常成功,实现了比传统方式更好的信源失真比 (SDR),但高效的设备端流式传输语音识别还需要解决模型体积、CPU 和内存限制以及电池用量考量和延迟最小化等限制。


在“VoiceFilter-Lite: Streaming Targeted Voice Separation for On-Device Speech Recognition”,我们提出了用于设备端的新版 VoiceFilter,支持利用选定讲话者的注册语音,显著改善重叠语音中的语音识别。重要的是,此模型可与现有设备端语音识别应用轻松集成,让用户在极度嘈杂并且缺少互联网连接的条件下也能使用语音辅助功能。我们的实验表明,一个 2.2MB 的 VoiceFilter-Lite 模型可将重叠语音的词错误率 (Word Error Rate, WER) 降低 25.1%。

  • VoiceFilter-Lite:Streaming Targeted Voice Separation for On-Device Speech Recognition
    https://arxiv.org/abs/2009.04323

  • 新版 VoiceFilter
    https://arxiv.org/abs/1810.04826



改善设备端语音识别

虽然在将目标讲话者的语音信号与其他重叠信号源分离方面,原始 VoiceFilter 系统非常成功,但其模型大小、计算成本和延迟对于移动设备端的语音识别并不可行。

  • 移动设备端的语音识别
    https://arxiv.org/abs/1811.06621


新版 VoiceFilter-Lite 专为设备端应用精心设计。VoiceFilter-Lite 不处理音频波形,而是采用与语音识别模型完全相同的输入特征(堆叠的对数梅尔滤波器组),通过实时滤除不属于目标讲话者的成分以直接增强这些特征。结合网络拓扑的多项优化,运行时所涉及的算子大幅减少。使用 TensorFlow Lite 库对神经网络进行量化后,模型大小仅为 2.2 MB,适合大多数设备端应用。

  • VoiceFilter-Lite
    https://arxiv.org/abs/2009.04323

  • TensorFlow Lite
    https://tensorflow.google.cn/lite


为了训练 VoiceFilter-Lite 模型,噪声语音的滤波器组与代表目标讲话者身份的嵌入向量(即 d-vector)一起作为输入馈送至网络。网络预测一个掩码,该掩码与输入逐元素相乘以生成增强的滤波器组。通过定义的损失函数在训练时消化增强后的滤波器组与干净语音的滤波器组之间的误差。

VoiceFilter-Lite 系统的模型架构


VoiceFilter-Lite 是一个即插即用模型,如果讲话者没有注册语音,那么实现该模型的应用就可以轻松绕过。这也意味着语音识别模型和 VoiceFilter-Lite 模型可以分别训练和更新,从而大幅减少部署过程中的工程复杂性。

作为即插即用模型,如果讲话者未注册语音,则可以轻松绕过 VoiceFilter-Lite



解决抑制过度问题

使用语音分离模型改善语音识别时,可能会发生两类错误:抑制不足,即模型未能滤除信号中的噪声成分;抑制过度,即模型未能保留有用信号,导致某些词从识别的文本中剔除。由于现代语音识别模型通常使用大量增强数据(如房间仿真和 SpecAugment)训练,因此对抑制不足较为鲁棒,却也导致了严重的抑制过度。

  • SpecAugment
    https://ai.googleblog.com/2019/04/specaugment-new-data-augmentation.html


VoiceFilter-Lite 以两种全新方式解决抑制过度问题。第一,它在训练过程中使用了非对称损失函数,因此模型对抑制过度的耐受性要低于抑制不足。第二,它会在运行时预测噪声的类型,并根据预测结果自适应地调整抑制强度。

检测到重叠语音时,VoiceFilter-Lite 会自适应地应用更强的抑制强度


在其他场景,如安静环境或各种噪声环境下的单人语音,VoiceFilter-Lite 模型通过这两种方式仍然保持了出色的流式传输语音识别性能,同时明显改善了重叠语音。通过实验,我们观察到在将 2.2MB 的 VoiceFilter-Lite 模型应用于加法重叠语音后,词错误率降低了 25.1%。对于更具挑战性的混响重叠语音,即模拟智能家居扬声器等远场设备,我们也观察到 VoiceFilter-Lite 可使词错误率降低 14.7%。



未来工作

虽然 VoiceFilter-Lite 已在多种设备端语音应用中表现出广阔前景,但我们也在探索其他方向,让 VoiceFilter-Lite 更加实用。首先,目前模型仅使用英语语音进行训练和评估。我们希望采用相同的技术改善更多语言的语音识别。其次,我们想在 VoiceFilter-Lite 的训练过程中直接优化语音识别损失,这有可能超越重叠语音的范围并进一步改善语音识别。



致谢

本文所述研究由 Google 内部多个团队共同完成。贡献者包括 Quan Wang、Ignacio Lopez Moreno、Mert Saglam、Kevin Wilson、Alan Chiao、Renjie Liu、Yanzhang He、Wei Li、Jason Pelecanos、Philip Chao、Sinan Akay、John Han、Stephen Wu、Hannah Muckenhirn、Ye Jia、Zelin Wu、Yiteng Huang、Marily Nika、Jaclyn Konzelmann、Nino Tasca 和 Alexander Gruenstein。



更多 AI 相关阅读:



登录查看更多
0

相关内容

语音识别是计算机科学和计算语言学的一个跨学科子领域,它发展了一些方法和技术,使计算机可以将口语识别和翻译成文本。 它也被称为自动语音识别(ASR),计算机语音识别或语音转文本(STT)。它整合了计算机科学,语言学和计算机工程领域的知识和研究。
专知会员服务
41+阅读 · 2021年1月18日
【AAAI2021】层次推理图神经网络
专知会员服务
69+阅读 · 2020年12月27日
【ECCV2020-华为】车道线架构搜索框架
专知会员服务
22+阅读 · 2020年9月23日
物联网时代分布式深度学习新方向
专知会员服务
53+阅读 · 2020年8月30日
TensorFlowLite:端侧机器学习框架
专知会员服务
32+阅读 · 2020年8月27日
专知会员服务
31+阅读 · 2020年4月24日
深度神经网络实时物联网图像处理,241页pdf
专知会员服务
76+阅读 · 2020年3月15日
TensorFlow Lite指南实战《TensorFlow Lite A primer》,附48页PPT
专知会员服务
69+阅读 · 2020年1月17日
通过集成 XNNPACK 实现推理速度飞跃
TensorFlow
26+阅读 · 2020年7月30日
谷歌提出MorphNet:网络规模更小、速度更快!
全球人工智能
4+阅读 · 2019年4月20日
基于手机系统的实时目标检测
计算机视觉战队
8+阅读 · 2018年12月5日
机器听觉:一、AI在音频处理上的潜力
论智
5+阅读 · 2018年11月25日
Real-time Speech Frequency Bandwidth Extension
Arxiv
1+阅读 · 2021年2月9日
VIP会员
相关VIP内容
专知会员服务
41+阅读 · 2021年1月18日
【AAAI2021】层次推理图神经网络
专知会员服务
69+阅读 · 2020年12月27日
【ECCV2020-华为】车道线架构搜索框架
专知会员服务
22+阅读 · 2020年9月23日
物联网时代分布式深度学习新方向
专知会员服务
53+阅读 · 2020年8月30日
TensorFlowLite:端侧机器学习框架
专知会员服务
32+阅读 · 2020年8月27日
专知会员服务
31+阅读 · 2020年4月24日
深度神经网络实时物联网图像处理,241页pdf
专知会员服务
76+阅读 · 2020年3月15日
TensorFlow Lite指南实战《TensorFlow Lite A primer》,附48页PPT
专知会员服务
69+阅读 · 2020年1月17日
相关资讯
Top
微信扫码咨询专知VIP会员