We propose an on-the-fly data augmentation method for automatic speech recognition (ASR) that uses alignment information to generate effective training samples. Our method, called Aligned Data Augmentation (ADA) for ASR, replaces transcribed tokens and the speech representations in an aligned manner to generate previously unseen training pairs. The speech representations are sampled from an audio dictionary that has been extracted from the training corpus and inject speaker variations into the training examples. The transcribed tokens are either predicted by a language model such that the augmented data pairs are semantically close to the original data, or randomly sampled. Both strategies result in training pairs that improve robustness in ASR training. Our experiments on a Seq-to-Seq architecture show that ADA can be applied on top of SpecAugment, and achieves about 9-23% and 4-15% relative improvements in WER over SpecAugment alone on LibriSpeech 100h and LibriSpeech 960h test datasets, respectively.


翻译:我们建议使用自动语音识别的实时数据增强方法(ASR),该方法使用校正信息生成有效的培训样本。我们的方法(ADA)称为 ADA(ADA)(ADA)(ADA)(ADA)(ADA)(AD)(ADA)(AD)(AD)(ADA)(AD)(ADA)(AD)(ADA)(ADA)(ADA)(ADA)(ADA)(AD(ADA)(ADAD)(AD)(ADAD)(ADA)(ADAD)(AD)(ADAD(AD))(AD(AD(AD))(AD(A(AD)(AD(AD))(AD(AD(AD(AD))(AD(AD(AD(AD)(ADAD))(AD(AD(ADAD(AD))(ADAD(AD))(ADAD(ADAD(AD(AD))(ADADAD(ADAD(AD)(AD)(AD)(AD)(ADAD)(AD)(AD)(AD)(AD))(AD))(AD))(AD(AD(AD(AD))(AD))(AD))(AD))(ADAD(AD(AD(AD))(AD(AD(AD))(AD))(AD(AD)))(AD))(AD(AD(AD(AD(AD))(AD(AD(AD(AD(AD(A(AD))(AD))(AD(A(AD)))(AD))))))(AD(AD(AD)))))(AD))))))(AD(ASR(AD(AD))(AD(AD(AD)))))(AD(AD(AD(AD(AD(AD(AD(AD(A(AD))(AD(AD)))))))(AA

0
下载
关闭预览

相关内容

语音识别是计算机科学和计算语言学的一个跨学科子领域,它发展了一些方法和技术,使计算机可以将口语识别和翻译成文本。 它也被称为自动语音识别(ASR),计算机语音识别或语音转文本(STT)。它整合了计算机科学,语言学和计算机工程领域的知识和研究。
零样本文本分类,Zero-Shot Learning for Text Classification
专知会员服务
95+阅读 · 2020年5月31日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
57+阅读 · 2019年10月17日
基于BERT的ASR纠错
深度学习自然语言处理
8+阅读 · 2020年7月16日
RoBERTa中文预训练模型:RoBERTa for Chinese
PaperWeekly
57+阅读 · 2019年9月16日
深度卷积神经网络中的降采样
极市平台
12+阅读 · 2019年5月24日
近期声学领域前沿论文(No. 4)
深度学习每日摘要
7+阅读 · 2019年5月1日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
语音顶级会议Interspeech2018接受论文列表!
专知
6+阅读 · 2018年6月10日
Conditional BERT Contextual Augmentation
Arxiv
8+阅读 · 2018年12月17日
VIP会员
相关VIP内容
零样本文本分类,Zero-Shot Learning for Text Classification
专知会员服务
95+阅读 · 2020年5月31日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
57+阅读 · 2019年10月17日
Top
微信扫码咨询专知VIP会员