论文链接:https://www.zhuanzhi.ai/paper/bbfc8d3f4f1e8d947d1d18dee9aef466
端到端语音识别(Speech Recognition, SR)系统的训练需要大量的标注数据,这对低资源场景来说是一个挑战。为此,微软亚洲研究院的研究员们提出了一种名为 UniSpeech 的方法,能够同时利用监督数据和无监督数据来学习统一的上下文表示。
图9:UniSpeech 方法示意图
如图9所示,研究员们的模型包含了基于卷积神经网络(Convolution Neural Network,CNN)的特征提取网络,基于 Transformer 的上下文网络和一个特征量化模块用于学习离散的向量。对于预训练,研究员们采用了多任务学习的方式;对于标记数据,则指定了两个训练目标:第一个是音素级别的 CTC 损失函数,该函数作用于 Transformer 的输出;第二个是在掩码上下文表示和离散潜在表示上定义的对比任务,该任务与 wav2vec2.0 相同。CTC 将每个上下文表示与音素标签对齐,同时,对比损失缩小了离散表示和上下文表示之间的距离。为了进一步明确指导量化器学习 SR 的特定信息,在计算 CTC 损失时,研究员们随机将一部分 Transformer 输出,替换为相应时间的离散表示。
在实验中,研究员们发现这种方法可以激活量化器码本中的更多码字。对于那些未标记数据,研究员们只进行了对比学习。在预训练之后,研究员们固定了特征提取器,并在少量标记的低资源数据上微调了 Transformer 部分。论文在 CommonVoice 数据集上验证了该方法,如表2-表4所示,UniSpeech 在以下三种设置中,均明显优于监督迁移学习和无监督对比学习:(1)单一高资源语言设置到单一低资源语言设置(One-to-One)(2)多语言高资源语言到单一低资源语言设置(Many-to-One)(3)多语言高资源语言到多语言低资源语言设置(Many-to-Many)。