Wake word (WW) spotting is challenging in far-field due to the complexities and variations in acoustic conditions and the environmental interference in signal transmission. A suite of carefully designed and optimized audio front-end (AFE) algorithms help mitigate these challenges and provide better quality audio signals to the downstream modules such as WW spotter. Since the WW model is trained with the AFE-processed audio data, its performance is sensitive to AFE variations, such as gain changes. In addition, when deploying to new devices, the WW performance is not guaranteed because the AFE is unknown to the WW model. To address these issues, we propose a novel approach to use a new feature called $\Delta$LFBE to decouple the AFE gain variations from the WW model. We modified the neural network architectures to accommodate the delta computation, with the feature extraction module unchanged. We evaluate our WW models using data collected from real household settings and showed the models with the $\Delta$LFBE is robust to AFE gain changes. Specifically, when AFE gain changes up to $\pm$12dB, the baseline CNN model lost up to relative 19.0% in false alarm rate or 34.3% in false reject rate, while the model with $\Delta$LFBE demonstrates no performance loss.
翻译:WW) Wake word (WW) 定位在远方是具有挑战性的,因为音响条件的复杂性和变化以及信号传输的环境干扰。一套精心设计和优化的音前端算法(AFE)有助于缓解这些挑战,并为下游模块(如WW 观察器)提供质量更好的音频信号。由于WWA模型是用AFE处理的音频数据培训的,因此其性能对AFE变化(如增益变化)十分敏感。此外,在部署新设备时,WWW的性能得不到保证,因为WFE模型并不为WW模式所熟悉。为了解决这些问题,我们建议采用新方法使用名为$Delta$LFE的新功能来调和AFE(AFE ) 来减少WWA模型的变异性。我们修改神经网络结构以适应三角计算,而功能提取模块不变。我们用从真实的家庭环境收集的数据来评估我们的WWAFE模型,并用$Delta $ 34.LFE 来显示模型的强度和AFE 获得变化。具体来说,当AFE 将AFE 得到最多为$\p$12美元或p$B 美元 美元 美元 美元 美元 美元 美元 美元 美元 美元 或美元 美元 美元 美元 美元 美元 美元 美元 美元 美元 美元 的汇率 以 以 的模型 以 的汇率 以 以 以 的汇率 以 以 的汇率 以 以 以 以 以 以 的汇率 以 以 的汇率 以 以 以 以 以 以 以 美元 以 以 以 以 以 以 的汇率 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 美元 美元