Voice conversion (VC) has been proposed to improve speech recognition systems in low-resource languages by using it to augment limited training data. But until recently, practical issues such as compute speed have limited the use of VC for this purpose. Moreover, it is still unclear whether a VC model trained on one well-resourced language can be applied to speech from another low-resource language for the purpose of data augmentation. In this work we assess whether a VC system can be used cross-lingually to improve low-resource speech recognition. Concretely, we combine several recent techniques to design and train a practical VC system in English, and then use this system to augment data for training a speech recognition model in several low-resource languages. We find that when using a sensible amount of augmented data, speech recognition performance is improved in all four low-resource languages considered.


翻译:为了改进低资源语言的语音识别系统(VC),有人提议通过使用它来增加有限的培训数据来改进低资源语言的语音识别系统。但直到最近,诸如计算速度等实际问题限制了为此目的对VC的使用。此外,目前还不清楚的是,为扩大数据的目的,是否可以将受过一种资源丰富的语言培训的VC模式用于使用另一种低资源语言的语音。在这项工作中,我们评估是否可以用跨语言使用VC系统来改进低资源语言的识别。具体地说,我们结合了最近的一些技术来设计和培训一个实用的VC系统,然后利用这个系统来增加数据,用于培训几种低资源语言的语音识别模型。我们发现,在使用合理数量的强化数据时,所有四种低资源语言的语音识别表现都得到了改进。

0
下载
关闭预览

相关内容

语音识别是计算机科学和计算语言学的一个跨学科子领域,它发展了一些方法和技术,使计算机可以将口语识别和翻译成文本。 它也被称为自动语音识别(ASR),计算机语音识别或语音转文本(STT)。它整合了计算机科学,语言学和计算机工程领域的知识和研究。
专知会员服务
28+阅读 · 2021年8月2日
机器学习相关资源(框架、库、软件)大列表
专知会员服务
39+阅读 · 2019年10月9日
计算机 | 国际会议信息5条
Call4Papers
3+阅读 · 2019年7月3日
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
人工智能 | 国际会议截稿信息9条
Call4Papers
4+阅读 · 2018年3月13日
已删除
将门创投
12+阅读 · 2017年10月13日
Arxiv
5+阅读 · 2019年11月22日
Arxiv
8+阅读 · 2018年11月27日
Arxiv
3+阅读 · 2018年3月14日
VIP会员
相关资讯
计算机 | 国际会议信息5条
Call4Papers
3+阅读 · 2019年7月3日
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
人工智能 | 国际会议截稿信息9条
Call4Papers
4+阅读 · 2018年3月13日
已删除
将门创投
12+阅读 · 2017年10月13日
Top
微信扫码咨询专知VIP会员