End-to-end (E2E) multi-channel ASR systems show state-of-the-art performance in far-field ASR tasks by joint training of a multi-channel front-end along with the ASR model. The main limitation of such systems is that they are usually trained with data from a fixed array geometry, which can lead to degradation in accuracy when a different array is used in testing. This makes it challenging to deploy these systems in practice, as it is costly to retrain and deploy different models for various array configurations. To address this, we present a simple and effective data augmentation technique, which is based on randomly dropping channels in the multi-channel audio input during training, in order to improve the robustness to various array configurations at test time. We call this technique ChannelAugment, in contrast to SpecAugment (SA) which drops time and/or frequency components of a single channel input audio. We apply ChannelAugment to the Spatial Filtering (SF) and Minimum Variance Distortionless Response (MVDR) neural beamforming approaches. For SF, we observe 10.6% WER improvement across various array configurations employing different numbers of microphones. For MVDR, we achieve a 74% reduction in training time without causing degradation of recognition accuracy.


翻译:终端到终端(E2E)多通道 ASR 系统显示远场 ASR 任务的最新性能,与 ASR 模型一起对多通道前端和 ASR 模型进行联合培训,这些系统的主要局限性是,它们通常接受固定阵列几何数据的培训,如果测试时使用不同的阵列,这可能导致精确度下降。因此,实际部署这些系统具有挑战性,因为对不同阵列配置进行再培训和部署不同模型的费用昂贵。为此,我们展示了一种简单有效的数据增强技术,其基础是在培训期间多通道音频输入中随机下降的频道,以提高测试时各种阵列配置的稳性。我们称之为“技术通道建议”,与SpetraAugment(SA)相比,它会降低单个频道输入音频的时段和/或频率组成部分。我们对空间过滤(SF)和最低不易分解反应(MLDDR) 神经成型反应应用了一种简单有效的数据增强技术。对于多通道音道音频输入器输入方法而言,我们观察了74.6%的MDRDR RDR dam regradustration 方法,我们在不使用不同阵列中采用10.

0
下载
关闭预览

相关内容

语音识别是计算机科学和计算语言学的一个跨学科子领域,它发展了一些方法和技术,使计算机可以将口语识别和翻译成文本。 它也被称为自动语音识别(ASR),计算机语音识别或语音转文本(STT)。它整合了计算机科学,语言学和计算机工程领域的知识和研究。
专知会员服务
53+阅读 · 2021年6月30日
【IJCAJ 2020】多通道神经网络 Multi-Channel Graph Neural Networks
专知会员服务
25+阅读 · 2020年7月19日
【Google】平滑对抗训练,Smooth Adversarial Training
专知会员服务
46+阅读 · 2020年7月4日
GitHub:数据增广最全资料集锦
CVer
7+阅读 · 2020年10月10日
ICML2019:Google和Facebook在推进哪些方向?
专知
5+阅读 · 2019年6月13日
用于语音识别的数据增强
AI研习社
24+阅读 · 2019年6月5日
已删除
将门创投
6+阅读 · 2019年1月2日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Arxiv
0+阅读 · 2021年11月15日
Arxiv
3+阅读 · 2021年6月9日
Arxiv
5+阅读 · 2019年1月16日
VIP会员
相关VIP内容
专知会员服务
53+阅读 · 2021年6月30日
【IJCAJ 2020】多通道神经网络 Multi-Channel Graph Neural Networks
专知会员服务
25+阅读 · 2020年7月19日
【Google】平滑对抗训练,Smooth Adversarial Training
专知会员服务
46+阅读 · 2020年7月4日
Top
微信扫码咨询专知VIP会员