Multilingual models for Automatic Speech Recognition (ASR) are attractive as they have been shown to benefit from more training data, and better lend themselves to adaptation to under-resourced languages. However, initialisation from monolingual context-dependent models leads to an explosion of context-dependent states. Connectionist Temporal Classification (CTC) is a potential solution to this as it performs well with monophone labels. We investigate multilingual CTC in the context of adaptation and regularisation techniques that have been shown to be beneficial in more conventional contexts. The multilingual model is trained to model a universal International Phonetic Alphabet (IPA)-based phone set using the CTC loss function. Learning Hidden Unit Contribution (LHUC) is investigated to perform language adaptive training. In addition, dropout during cross-lingual adaptation is also studied and tested in order to mitigate the overfitting problem. Experiments show that the performance of the universal phoneme-based CTC system can be improved by applying LHUC and it is extensible to new phonemes during cross-lingual adaptation. Updating all the parameters shows consistent improvement on limited data. Applying dropout during adaptation can further improve the system and achieve competitive performance with Deep Neural Network / Hidden Markov Model (DNN/HMM) systems on limited data.


翻译:自动语音识别(ASR)多语种模式具有吸引力,因为事实证明这些模式能够从更多的培训数据中受益,并且更适合于适应资源不足的语言。然而,单语语言背景型模式的初始化导致依赖背景的状态的爆发。连接时间分类(CTC)是解决这个问题的一个潜在解决方案,因为它在使用单语标签方面表现良好。我们从适应和常规化技术的角度调查多语种的CTC,这些技术已证明在更常规的环境下是有益的。多语种模式经过培训,利用CTC损失功能模拟通用国际语音字母(IPA)基于手机的模型。学习隐藏单位贡献(LHUC)受到调查,以进行语言适应性培训。此外,跨语种适应期间的辍学问题也经过研究和测试,以缓解问题。实验表明,应用LHUC软件可以改进通用的CTC系统的性能,在跨语种适应期间,它可扩展到新的电话。更新所有参数显示对有限数据的不断改进。在适应期间应用辍学情况可以进一步改进系统,并实现与深神经网络/Sream 数据模型的竞争性性。

7
下载
关闭预览

相关内容

机器学习入门的经验与建议
专知会员服务
94+阅读 · 2019年10月10日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
推荐|深度强化学习聊天机器人(附论文)!
全球人工智能
4+阅读 · 2018年1月30日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Teacher-Student Training for Robust Tacotron-based TTS
Arxiv
3+阅读 · 2018年8月27日
Arxiv
3+阅读 · 2018年3月2日
VIP会员
相关VIP内容
机器学习入门的经验与建议
专知会员服务
94+阅读 · 2019年10月10日
Top
微信扫码咨询专知VIP会员