Self-supervised training has shown promising gains in pretraining models and facilitating the downstream finetuning for speech recognition, like multilingual ASR. Most existing methods adopt a 2-stage scheme where the self-supervised loss is optimized in the first pretraining stage, and the standard supervised finetuning resumes in the second stage. In this paper, we propose an end-to-end (E2E) Joint Unsupervised and Supervised Training (JUST) method to combine the supervised RNN-T loss and the self-supervised contrastive and masked language modeling (MLM) losses. We validate its performance on the public dataset Multilingual LibriSpeech (MLS), which includes 8 languages and is extremely imbalanced. On MLS, we explore (1) JUST trained from scratch, and (2) JUST finetuned from a pretrained checkpoint. Experiments show that JUST can consistently outperform other existing state-of-the-art methods, and beat the monolingual baseline by a significant margin, demonstrating JUST's capability of handling low-resource languages in multilingual ASR. Our average WER of all languages outperforms average monolingual baseline by 33.3%, and the state-of-the-art 2-stage XLSR by 32%. On low-resource languages like Polish, our WER is less than half of the monolingual baseline and even beats the supervised transfer learning method which uses external supervision.


翻译:自我监督的培训在培训前模式和为语言识别的下游微调(如多语言ASR)方面显示出了大有希望的进展。大多数现有方法都采用了第二阶段计划,在第一阶段培训前阶段优化自我监督的损失,第二阶段恢复了标准监督的微调。在本文件中,我们提议了一个端对端(E2E)联合不受监督和监督的培训(Just)方法,将受监督的RNN-T损失和自我监督的对比和遮蔽语言模型(MLMM)损失结合起来。我们验证了它在公共数据集多语言LibriSpeech(MLS)上的绩效,其中包括8种语言,而且极不平衡。在MLS中,我们探索了(1) 从零开始训练,和(2) 从预先培训的检查站进行微调。实验表明,仅仅能够一贯地超越其他现有的最新技术方法,并且用一个很大的幅度击败单语基底线,展示了在多语言ASR(MSR)中处理低资源语言的能力。我们所有语言的平均WER值在多语言上的平均半语言上超越了2级标准,在波兰平均单语言基线上比标准基底基线上比标准为32。

0
下载
关闭预览

相关内容

语音识别是计算机科学和计算语言学的一个跨学科子领域,它发展了一些方法和技术,使计算机可以将口语识别和翻译成文本。 它也被称为自动语音识别(ASR),计算机语音识别或语音转文本(STT)。它整合了计算机科学,语言学和计算机工程领域的知识和研究。
专知会员服务
32+阅读 · 2021年3月7日
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
161+阅读 · 2020年3月18日
Transferring Knowledge across Learning Processes
CreateAMind
26+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
无监督元学习表示学习
CreateAMind
26+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
Arxiv
3+阅读 · 2018年8月27日
VIP会员
相关VIP内容
专知会员服务
32+阅读 · 2021年3月7日
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
161+阅读 · 2020年3月18日
Top
微信扫码咨询专知VIP会员