Semi-supervised training (SST) is a common approach to leverage untranscribed/unlabeled speech data to improve automatic speech recognition performance in low-resource languages. However, if the available unlabeled speech is mismatched to the target domain, SST is not as effective, and in many cases performs worse than the original system. In this paper, we address the issue of low-resource ASR when only untranscribed out-of-domain speech data is readily available in the target language. Specifically, we look to improve performance on conversational/telephony speech (target domain) using web resources, in particular YouTube data, which more closely resembles news/topical broadcast data. Leveraging SST, we show that while in some cases simply pooling the out-of-domain data with the training data lowers word error rate (WER), in all cases, we see improvements if we train first with the out-of-domain data and then fine-tune the resulting model with the original training data. Using 2000 hours of speed perturbed YouTube audio in each target language, with semi-supervised transcripts, we show improvements on multiple languages/data sets, of up to 16.3% relative improvement in WER over the baseline systems and up to 7.4% relative improvement in WER over a system that simply pools the out-of-domain data with the training data.


翻译:半监督培训( SST) 是一种常用的方法, 来利用未标记/ 未标记的语音数据来提高低资源语言的自动语音识别性能。 但是, 如果现有的未标记的语音与目标域不匹配, SST并不那么有效, 在许多情况下, 其效果比原始系统差。 在本文中, 当仅以目标语言提供未标记的场外语音数据时, 我们处理低资源 ASR 的问题。 具体地说, 我们期待利用网络资源, 特别是YouTube数据, 来改进对谈话/ 远程语音( 目标域域) 的性能, 以更接近于新闻/ 主题广播数据的YouTube 数据。 我们利用 SST, 我们显示, 在某些情况下, 仅将外部数据与培训数据集中起来, 降低单词误差率( WER ), 在所有情况下, 如果我们首先用外部数据培训,然后用原始培训数据调整后的模式。 使用2000小时速度/ 将每个目标语言的YouTuTube 音带音频, 近似于新闻/ 主题广播数据, 更新为16 % 的相对数据更新后, 我们用多种系统, 更新后用16ER 更新后的数据系统, 更新到更新为16 更新为更新为检索 。

0
下载
关闭预览

相关内容

专知会员服务
50+阅读 · 2021年7月10日
最新《Transformers模型》教程,64页ppt
专知会员服务
307+阅读 · 2020年11月26日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
弱监督语义分割最新方法资源列表
专知
9+阅读 · 2019年2月26日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
VIP会员
相关资讯
Top
微信扫码咨询专知VIP会员