论文链接:https://www.zhuanzhi.ai/paper/bbfc8d3f4f1e8d947d1d18dee9aef466

端到端语音识别(Speech Recognition, SR)系统的训练需要大量的标注数据,这对低资源场景来说是一个挑战。为此,微软亚洲研究院的研究员们提出了一种名为 UniSpeech 的方法,能够同时利用监督数据和无监督数据来学习统一的上下文表示。

图9:UniSpeech 方法示意图

如图9所示,研究员们的模型包含了基于卷积神经网络(Convolution Neural Network,CNN)的特征提取网络,基于 Transformer 的上下文网络和一个特征量化模块用于学习离散的向量。对于预训练,研究员们采用了多任务学习的方式;对于标记数据,则指定了两个训练目标:第一个是音素级别的 CTC 损失函数,该函数作用于 Transformer 的输出;第二个是在掩码上下文表示和离散潜在表示上定义的对比任务,该任务与 wav2vec2.0 相同。CTC 将每个上下文表示与音素标签对齐,同时,对比损失缩小了离散表示和上下文表示之间的距离。为了进一步明确指导量化器学习 SR 的特定信息,在计算 CTC 损失时,研究员们随机将一部分 Transformer 输出,替换为相应时间的离散表示。

在实验中,研究员们发现这种方法可以激活量化器码本中的更多码字。对于那些未标记数据,研究员们只进行了对比学习。在预训练之后,研究员们固定了特征提取器,并在少量标记的低资源数据上微调了 Transformer 部分。论文在 CommonVoice 数据集上验证了该方法,如表2-表4所示,UniSpeech 在以下三种设置中,均明显优于监督迁移学习和无监督对比学习:(1)单一高资源语言设置到单一低资源语言设置(One-to-One)(2)多语言高资源语言到单一低资源语言设置(Many-to-One)(3)多语言高资源语言到多语言低资源语言设置(Many-to-Many)。

成为VIP会员查看完整内容
9

相关内容

专知会员服务
18+阅读 · 2021年9月13日
专知会员服务
34+阅读 · 2021年8月19日
专知会员服务
21+阅读 · 2021年5月14日
【CVPR2021】基于端到端预训练的视觉-语言表征学习
专知会员服务
37+阅读 · 2021年4月9日
专知会员服务
44+阅读 · 2021年1月31日
【AAAI2021】协同挖掘:用于稀疏注释目标检测的自监督学习
【NeurIPS2020 】数据扩充的图对比学习
专知
9+阅读 · 2020年11月9日
用 SimCLR 提高自监督与半监督学习效果
谷歌开发者
5+阅读 · 2020年5月12日
FAIR&MIT提出知识蒸馏新方法:数据集蒸馏
机器之心
3+阅读 · 2019年2月7日
通过时空模型迁移学习的无监督的跨数据集行人重新识别
统计学习与视觉计算组
8+阅读 · 2018年10月23日
只有100个标记数据,如何精确分类400万用户评论?
深度学习世界
3+阅读 · 2018年8月21日
论文浅尝 | 用图网络做小样本学习
开放知识图谱
66+阅读 · 2018年6月30日
VIP会员
相关VIP内容
专知会员服务
18+阅读 · 2021年9月13日
专知会员服务
34+阅读 · 2021年8月19日
专知会员服务
21+阅读 · 2021年5月14日
【CVPR2021】基于端到端预训练的视觉-语言表征学习
专知会员服务
37+阅读 · 2021年4月9日
专知会员服务
44+阅读 · 2021年1月31日
【AAAI2021】协同挖掘:用于稀疏注释目标检测的自监督学习
相关资讯
微信扫码咨询专知VIP会员