In this paper, we focus on improving the performance of the text-dependent speaker verification system in the scenario of limited training data. The speaker verification system deep learning based text-dependent generally needs a large scale text-dependent training data set which could be labor and cost expensive, especially for customized new wake-up words. In recent studies, voice conversion systems that can generate high quality synthesized speech of seen and unseen speakers have been proposed. Inspired by those works, we adopt two different voice conversion methods as well as the very simple re-sampling approach to generate new text-dependent speech samples for data augmentation purposes. Experimental results show that the proposed method significantly improves the Equal Error Rare performance from 6.51% to 4.51% in the scenario of limited training data.


翻译:在本文中,我们侧重于在有限培训数据的情况下改进依赖文本的发言者核查制度的性能。在有限培训数据的情况下,基于文本的深学习系统通常需要大规模基于文本的培训数据集,这些数据可能是人工的,成本昂贵,特别是针对定制的新醒醒词。在最近的研究中,提出了能够产生高品质的视觉和看不见演讲者综合演讲的语音转换系统。在这些作品的启发下,我们采用了两种不同的语音转换方法,以及非常简单的再抽样方法,为数据扩增目的生成新的依赖文本的语音样本。实验结果显示,在有限的培训数据情况下,拟议方法极大地提高了平等错误率,从6.51%提高到4.51%。

0
下载
关闭预览

相关内容

【资源】语音增强资源集锦
专知
8+阅读 · 2020年7月4日
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
方兴未艾的语音合成技术与应用
AI100
8+阅读 · 2018年10月16日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
6+阅读 · 2020年4月14日
Arxiv
6+阅读 · 2018年7月29日
Arxiv
5+阅读 · 2018年1月18日
VIP会员
相关VIP内容
Top
微信扫码咨询专知VIP会员