Wake word (WW) spotting is challenging in far-field due to the complexities and variations in acoustic conditions and the environmental interference in signal transmission. A suite of carefully designed and optimized audio front-end (AFE) algorithms help mitigate these challenges and provide better quality audio signals to the downstream modules such as WW spotter. Since the WW model is trained with the AFE-processed audio data, its performance is sensitive to AFE variations, such as gain changes. In addition, when deploying to new devices, the WW performance is not guaranteed because the AFE is unknown to the WW model. To address these issues, we propose a novel approach to use a new feature called $\Delta$LFBE to decouple the AFE gain variations from the WW model. We modified the neural network architectures to accommodate the delta computation, with the feature extraction module unchanged. We evaluate our WW models using data collected from real household settings and showed the models with the $\Delta$LFBE is robust to AFE gain changes. Specifically, when AFE gain changes up to $\pm$12dB, the baseline CNN model lost up to relative 19.0% in false alarm rate or 34.3% in false reject rate, while the model with $\Delta$LFBE demonstrates no performance loss.


翻译:WW) Wake word (WW) 定位在远方是具有挑战性的,因为音响条件的复杂性和变化以及信号传输的环境干扰。一套精心设计和优化的音前端算法(AFE)有助于缓解这些挑战,并为下游模块(如WW 观察器)提供质量更好的音频信号。由于WWA模型是用AFE处理的音频数据培训的,因此其性能对AFE变化(如增益变化)十分敏感。此外,在部署新设备时,WWW的性能得不到保证,因为WFE模型并不为WW模式所熟悉。为了解决这些问题,我们建议采用新方法使用名为$Delta$LFE的新功能来调和AFE(AFE ) 来减少WWA模型的变异性。我们修改神经网络结构以适应三角计算,而功能提取模块不变。我们用从真实的家庭环境收集的数据来评估我们的WWAFE模型,并用$Delta $ 34.LFE 来显示模型的强度和AFE 获得变化。具体来说,当AFE 将AFE 得到最多为$\p$12美元或p$B 美元 美元 美元 美元 美元 美元 美元 美元 美元 美元 或美元 美元 美元 美元 美元 美元 美元 美元 美元 美元 美元 的汇率 以 以 的模型 以 的汇率 以 以 以 的汇率 以 以 的汇率 以 以 以 以 以 以 的汇率 以 以 的汇率 以 以 以 以 以 以 以 美元 以 以 以 以 以 以 的汇率 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 美元 美元

0
下载
关闭预览

相关内容

最新《Transformers模型》教程,64页ppt
专知会员服务
310+阅读 · 2020年11月26日
【IJCAI2020南大】上下文在神经机器翻译中的充分利用
专知会员服务
15+阅读 · 2020年8月17日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
59+阅读 · 2019年10月17日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
人脸专集4 | 遮挡、光照等因素的人脸关键点检测
计算机视觉战队
29+阅读 · 2019年4月11日
逆强化学习-学习人先验的动机
CreateAMind
16+阅读 · 2019年1月18日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
【推荐】用Tensorflow理解LSTM
机器学习研究会
36+阅读 · 2017年9月11日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Arxiv
0+阅读 · 2020年11月20日
Arxiv
0+阅读 · 2020年11月19日
VIP会员
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
人脸专集4 | 遮挡、光照等因素的人脸关键点检测
计算机视觉战队
29+阅读 · 2019年4月11日
逆强化学习-学习人先验的动机
CreateAMind
16+阅读 · 2019年1月18日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
【推荐】用Tensorflow理解LSTM
机器学习研究会
36+阅读 · 2017年9月11日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Top
微信扫码咨询专知VIP会员