Recently, self-supervised pretraining has achieved impressive results in end-to-end (E2E) automatic speech recognition (ASR). However, the dominant sequence-to-sequence (S2S) E2E model is still hard to fully utilize the self-supervised pre-training methods because its decoder is conditioned on acoustic representation thus cannot be pretrained separately. In this paper, we propose a pretrained Transformer (Preformer) S2S ASR architecture based on hybrid CTC/attention E2E models to fully utilize the pretrained acoustic models (AMs) and language models (LMs). In our framework, the encoder is initialized with a pretrained AM (wav2vec2.0). The Preformer leverages CTC as an auxiliary task during training and inference. Furthermore, we design a one-cross decoder (OCD), which relaxes the dependence on acoustic representations so that it can be initialized with pretrained LM (DistilGPT2). Experiments are conducted on the AISHELL-1 corpus and achieve a $4.6\%$ character error rate (CER) on the test set. Compared with our vanilla hybrid CTC/attention Transformer baseline, our proposed CTC/attention-based Preformer yields $27\%$ relative CER reduction. To the best of our knowledge, this is the first work to utilize both pretrained AM and LM in a S2S ASR system.


翻译:最近,自我监督的训练前阶段在终端到终端(E2E)自动语音识别(ASR)方面取得了令人印象深刻的成果。然而,占主导地位的顺序到序列的E2E模型仍然难以充分利用自监督的训练前方法,因为其解码器是以声学代表为条件的,因此无法单独进行预先训练。在本文件中,我们提议以混合的CTC/注意E2E模型为基础,建立一个预先训练的变压器S2S2S ASR结构,以充分利用预先训练的音学模型和语言模型(LMs )。在我们的框架里,编码器以预先训练的AM(wav2vec2.0)为初始,在培训和推断期间,将CTCS作为辅助任务加以充分利用。此外,我们设计了一个一次性的解码器(OCD),这样可以减轻对声学表达器的依赖,这样就可以以预先训练的LM(DettillGP2)。 正在对AISELL-1号和语言模型进行实验,并实现4.6-10美元性字符错误率的ARC-RR 用于我们拟议的IMS-S-R IMSBRBR BOR 测试的第一次基准。

0
下载
关闭预览

相关内容

基于预训练语言模型的文本生成
专知会员服务
27+阅读 · 2022年1月28日
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
163+阅读 · 2020年3月18日
专知会员服务
44+阅读 · 2020年3月6日
【MIT深度学习课程】深度序列建模,Deep Sequence Modeling
专知会员服务
77+阅读 · 2020年2月3日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
【资源】语音增强资源集锦
专知
8+阅读 · 2020年7月4日
Hierarchically Structured Meta-learning
CreateAMind
24+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
语音顶级会议Interspeech2018接受论文列表!
专知
6+阅读 · 2018年6月10日
Arxiv
3+阅读 · 2018年6月19日
VIP会员
Top
微信扫码咨询专知VIP会员