题目: Unsupervised pre-training for sequence to sequence speech recognition

摘要:

本文提出了一种新的编码-解码器序列到序列预训练模型(seq2seq)。我们的前训练方法分为两个阶段,分别是声学前训练和语言前训练。在声学预训练阶段,我们使用大量的语音来预训练编码器,通过预测掩蔽语音特征块及其上下文。在语言前训练阶段,我们使用单说话文本到语音(TTS)系统从大量的文本中生成合成语音,并使用合成的成对数据对译码器进行预训练。这种两阶段预训练方法将丰富的声学和语言知识整合到seq2seq模型中,有利于后续的自动语音识别(ASR)任务。在AISHELL-2数据集上完成无监督的预训练,我们将预训练模型应用于AISHELL-1和香港科技大学的多重配对数据比率。我们的相对错误率由AISHELL-1的38.24%降至7.88%,由香港科技大学的12.00%降至1.20%。此外,将我们的预训练模型应用到带有CALLHOME数据集的跨语言案例中。对于CALLHOME数据集中的所有六种语言,我们的预训练方法使模型始终优于基线。

作者:

徐波,研究员,1988年毕业于浙江大学,现任中国科学院自动化所所长 ,研究领域包括:多语言语音识别与机器翻译、多媒体网络内容智能处理、互动沉浸式3D互联网等。

成为VIP会员查看完整内容
32

相关内容

一种循环神经网络,对应输入序列。编码器的作用是把一个不定长的输入序列转化成一个定长的背景向量cc。该背景向量包含了输入序列的信息。常用的编码器是循环神经网络。编码器的输入既可以是正向传递,也可以是反向传递。
Mozilla发布开源语音数据库和语音识别模型
Python程序员
3+阅读 · 2017年12月1日
Arxiv
3+阅读 · 2018年6月19日
Arxiv
6+阅读 · 2018年1月29日
VIP会员
相关VIP内容
微信扫码咨询专知VIP会员