This study aims to improve the performance of automatic speech recognition (ASR) under noisy conditions. The use of a speech enhancement (SE) frontend has been widely studied for noise robust ASR. However, most single-channel SE models introduce processing artifacts in the enhanced speech resulting in degraded ASR performance. To overcome this problem, we propose Signal-to-Noise Ratio improvement (SNRi) target training; the SE frontend automatically controls its noise reduction level to avoid degrading the ASR performance due to artifacts. The SE frontend uses an auxiliary scalar input which represents the target SNRi of the output signal. The target SNRi value is estimated by the SNRi prediction network, which is trained to minimize the ASR loss. Experiments using 55,027 hours of noisy speech training data show that SNRi target training enables control of the SNRi of the output signal, and the joint training reduces word error rate by 12% compared to a state-of-the-art Conformer-based ASR model.


翻译:这项研究的目的是在吵闹的条件下提高自动语音识别(ASR)的性能; 广泛研究使用扩音前端(SE)对噪音强的ASR进行强化研究; 然而,大多数SE型单频道模型在强化语音中引入处理工艺品,导致ASR性能退化; 为了解决这一问题,我们提议进行信号到噪音比对比目标培训; SE 前端自动控制其降低噪音水平,以避免因工艺品而降低ASR性能的人格; SE 前端使用了代表输出信号目标SNRI的辅助电弧输入; SNI 预测网络估算了SNI 目标值,该预测网络受过培训,以尽量减少ASR损失; 使用55 027小时的噪音语言培训实验显示,SNRI目标培训能够控制输出信号的SNRI, 联合培训比基于最新技术的ASR模型减少字差率12%。

0
下载
关闭预览

相关内容

语音增强是指当语音信号被各种各样的噪声干扰、甚至淹没后,从噪声背景中提取有用的语音信号,抑制、降低噪声干扰的技术。一句话,从含噪语音中提取尽可能纯净的原始语音。
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
162+阅读 · 2020年3月18日
TiramisuASR:用TensorFlow实现的语音识别引擎
【资源】语音增强资源集锦
专知
8+阅读 · 2020年7月4日
已删除
将门创投
5+阅读 · 2019年6月28日
Transferring Knowledge across Learning Processes
CreateAMind
26+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
STRCF for Visual Object Tracking
统计学习与视觉计算组
14+阅读 · 2018年5月29日
论文浅尝 | Learning with Noise: Supervised Relation Extraction
开放知识图谱
3+阅读 · 2018年1月4日
Teacher-Student Training for Robust Tacotron-based TTS
Phase-aware Speech Enhancement with Deep Complex U-Net
Arxiv
8+阅读 · 2018年11月27日
Arxiv
3+阅读 · 2018年6月19日
VIP会员
相关VIP内容
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
162+阅读 · 2020年3月18日
相关资讯
TiramisuASR:用TensorFlow实现的语音识别引擎
【资源】语音增强资源集锦
专知
8+阅读 · 2020年7月4日
已删除
将门创投
5+阅读 · 2019年6月28日
Transferring Knowledge across Learning Processes
CreateAMind
26+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
STRCF for Visual Object Tracking
统计学习与视觉计算组
14+阅读 · 2018年5月29日
论文浅尝 | Learning with Noise: Supervised Relation Extraction
开放知识图谱
3+阅读 · 2018年1月4日
Top
微信扫码咨询专知VIP会员