【ICML2021】基于标记和未标记数据的统一语音表示学习 - 专知VIP

会员服务 ·

0

语音表示学习 · ICML 2021 ·

2021 年 7 月 28 日

【ICML2021】基于标记和未标记数据的统一语音表示学习

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

论文链接：https://www.zhuanzhi.ai/paper/bbfc8d3f4f1e8d947d1d18dee9aef466

端到端语音识别（Speech Recognition, SR）系统的训练需要大量的标注数据，这对低资源场景来说是一个挑战。为此，微软亚洲研究院的研究员们提出了一种名为 UniSpeech 的方法，能够同时利用监督数据和无监督数据来学习统一的上下文表示。

图9：UniSpeech 方法示意图

如图9所示，研究员们的模型包含了基于卷积神经网络（Convolution Neural Network，CNN）的特征提取网络，基于 Transformer 的上下文网络和一个特征量化模块用于学习离散的向量。对于预训练，研究员们采用了多任务学习的方式；对于标记数据，则指定了两个训练目标：第一个是音素级别的 CTC 损失函数，该函数作用于 Transformer 的输出；第二个是在掩码上下文表示和离散潜在表示上定义的对比任务，该任务与 wav2vec2.0 相同。CTC 将每个上下文表示与音素标签对齐，同时，对比损失缩小了离散表示和上下文表示之间的距离。为了进一步明确指导量化器学习 SR 的特定信息，在计算 CTC 损失时，研究员们随机将一部分 Transformer 输出，替换为相应时间的离散表示。

在实验中，研究员们发现这种方法可以激活量化器码本中的更多码字。对于那些未标记数据，研究员们只进行了对比学习。在预训练之后，研究员们固定了特征提取器，并在少量标记的低资源数据上微调了 Transformer 部分。论文在 CommonVoice 数据集上验证了该方法，如表2-表4所示，UniSpeech 在以下三种设置中，均明显优于监督迁移学习和无监督对比学习：（1）单一高资源语言设置到单一低资源语言设置（One-to-One）（2）多语言高资源语言到单一低资源语言设置（Many-to-One）（3）多语言高资源语言到多语言低资源语言设置（Many-to-Many）。

成为VIP会员查看完整内容

10

相关内容

语音表示学习

语音表示学习

【ICML2021】通过文本生成统一视觉和语言任务

专知会员服务

19+阅读 · 2021年9月13日

【ICML2021】标签匹配深度域自适应

专知会员服务

35+阅读 · 2021年8月19日

【ACL2021】利用自标注的词对齐提升预训练跨语言语言模型

专知会员服务

17+阅读 · 2021年8月13日

【ICML2021】数据高效深度学习的自调优

专知会员服务

22+阅读 · 2021年5月14日

【CVPR2021】基于端到端预训练的视觉-语言表征学习

【CVPR2021】基于端到端预训练的视觉-语言表征学习

专知会员服务

38+阅读 · 2021年4月9日

【CVPR2021】基于相似性分布距离的无监督人脸图像质量评价

专知会员服务

32+阅读 · 2021年3月19日

GNN如何自监督学习？TAMU首篇《图神经网络自监督学习》综述论文，17页pdf

GNN如何自监督学习？TAMU首篇《图神经网络自监督学习》综述论文，17页pdf

专知会员服务

74+阅读 · 2021年2月28日

【ICLR2021】IEPT:用于少样本学习的实例级和片段级代理任务

【ICLR2021】IEPT:用于少样本学习的实例级和片段级代理任务

专知会员服务

15+阅读 · 2021年2月15日

【AAAI2021】基于双任务一致性的半监督医学图像分割

专知会员服务

45+阅读 · 2021年1月31日

【AAAI2021】协同挖掘:用于稀疏注释目标检测的自监督学习

【AAAI2021】协同挖掘:用于稀疏注释目标检测的自监督学习

专知会员服务

27+阅读 · 2020年12月6日

【NeurIPS2020 】数据扩充的图对比学习

【NeurIPS2020 】数据扩充的图对比学习

专知

9+阅读 · 2020年11月9日

用 SimCLR 提高自监督与半监督学习效果

用 SimCLR 提高自监督与半监督学习效果

谷歌开发者

5+阅读 · 2020年5月12日

让半监督学习再次伟大！谷歌最新无监督数据增强研究，全面超越现有半监督学习方法

让半监督学习再次伟大！谷歌最新无监督数据增强研究，全面超越现有半监督学习方法

新智元

20+阅读 · 2019年7月11日

每类13张标注图就可从头学分类器，DeepMind新半监督模型超越AlexNet

每类13张标注图就可从头学分类器，DeepMind新半监督模型超越AlexNet

机器之心

9+阅读 · 2019年5月31日

ICML 2019 | 微软提出极低资源下语音合成与识别新方法，小语种也不怕没数据了！

ICML 2019 | 微软提出极低资源下语音合成与识别新方法，小语种也不怕没数据了！

微软研究院AI头条

8+阅读 · 2019年5月15日

ACM MM18 | 用于跨模态检索的综合距离保持自编码器

ACM MM18 | 用于跨模态检索的综合距离保持自编码器

PaperWeekly

5+阅读 · 2019年3月11日

FAIR&MIT提出知识蒸馏新方法：数据集蒸馏

FAIR&MIT提出知识蒸馏新方法：数据集蒸馏

机器之心

3+阅读 · 2019年2月7日

通过时空模型迁移学习的无监督的跨数据集行人重新识别

通过时空模型迁移学习的无监督的跨数据集行人重新识别

统计学习与视觉计算组

8+阅读 · 2018年10月23日

只有100个标记数据，如何精确分类400万用户评论？

只有100个标记数据，如何精确分类400万用户评论？

深度学习世界

3+阅读 · 2018年8月21日

论文浅尝 | 用图网络做小样本学习

论文浅尝 | 用图网络做小样本学习

开放知识图谱

66+阅读 · 2018年6月30日

Adaptive Consistency Regularization for Semi-Supervised Transfer Learning

Arxiv

23+阅读 · 2021年3月3日

M2GRL: A Multi-task Multi-view Graph Representation Learning Framework for Web-scale Recommender Systems

Arxiv

8+阅读 · 2020年6月1日

Evolving Losses for Unsupervised Video Representation Learning

Arxiv

23+阅读 · 2020年2月26日

Self-labelling via simultaneous clustering and representation learning

Self-labelling via simultaneous clustering and representation learning

Arxiv

3+阅读 · 2019年11月13日

Jointly Learning Entity and Relation Representations for Entity Alignment

Arxiv

3+阅读 · 2019年9月20日

Unsupervised Meta-Learning for Reinforcement Learning

Arxiv

8+阅读 · 2018年6月12日

Ermes: Emoji-Powered Representation Learning for Cross-Lingual Sentiment Classification

Arxiv

6+阅读 · 2018年6月7日

Visual Data Synthesis via GAN for Zero-Shot Video Classification

Arxiv

3+阅读 · 2018年4月26日

Discriminative Cross-View Binary Representation Learning

Arxiv

9+阅读 · 2018年4月4日

Identifying Corresponding Patches in SAR and Optical Images with a Pseudo-Siamese CNN

Arxiv

9+阅读 · 2018年1月25日

VIP会员

相关主题

语音表示学习

相关VIP内容

【ICML2021】通过文本生成统一视觉和语言任务

专知会员服务

19+阅读 · 2021年9月13日

【ICML2021】标签匹配深度域自适应

专知会员服务

35+阅读 · 2021年8月19日

【ACL2021】利用自标注的词对齐提升预训练跨语言语言模型

专知会员服务

17+阅读 · 2021年8月13日

【ICML2021】数据高效深度学习的自调优

专知会员服务

22+阅读 · 2021年5月14日

【CVPR2021】基于端到端预训练的视觉-语言表征学习

【CVPR2021】基于端到端预训练的视觉-语言表征学习

专知会员服务

38+阅读 · 2021年4月9日

【CVPR2021】基于相似性分布距离的无监督人脸图像质量评价

专知会员服务

32+阅读 · 2021年3月19日

GNN如何自监督学习？TAMU首篇《图神经网络自监督学习》综述论文，17页pdf

GNN如何自监督学习？TAMU首篇《图神经网络自监督学习》综述论文，17页pdf

专知会员服务

74+阅读 · 2021年2月28日

【ICLR2021】IEPT:用于少样本学习的实例级和片段级代理任务

【ICLR2021】IEPT:用于少样本学习的实例级和片段级代理任务

专知会员服务

15+阅读 · 2021年2月15日

【AAAI2021】基于双任务一致性的半监督医学图像分割

专知会员服务

45+阅读 · 2021年1月31日

【AAAI2021】协同挖掘:用于稀疏注释目标检测的自监督学习

【AAAI2021】协同挖掘:用于稀疏注释目标检测的自监督学习

专知会员服务

27+阅读 · 2020年12月6日

热门VIP内容

开通专知VIP会员享更多权益服务

《战区安全决策课程体系》最新244页

《"无人机航母"原型平台》

任务规划与地形分析：现代复杂环境作战导航体系

《攻击场景描述形式化模型研究》

相关资讯

【NeurIPS2020 】数据扩充的图对比学习

【NeurIPS2020 】数据扩充的图对比学习

专知

9+阅读 · 2020年11月9日

用 SimCLR 提高自监督与半监督学习效果

用 SimCLR 提高自监督与半监督学习效果

谷歌开发者

5+阅读 · 2020年5月12日

让半监督学习再次伟大！谷歌最新无监督数据增强研究，全面超越现有半监督学习方法

让半监督学习再次伟大！谷歌最新无监督数据增强研究，全面超越现有半监督学习方法

新智元

20+阅读 · 2019年7月11日

每类13张标注图就可从头学分类器，DeepMind新半监督模型超越AlexNet

每类13张标注图就可从头学分类器，DeepMind新半监督模型超越AlexNet

机器之心

9+阅读 · 2019年5月31日

ICML 2019 | 微软提出极低资源下语音合成与识别新方法，小语种也不怕没数据了！

ICML 2019 | 微软提出极低资源下语音合成与识别新方法，小语种也不怕没数据了！

微软研究院AI头条

8+阅读 · 2019年5月15日

ACM MM18 | 用于跨模态检索的综合距离保持自编码器

ACM MM18 | 用于跨模态检索的综合距离保持自编码器

PaperWeekly

5+阅读 · 2019年3月11日

FAIR&MIT提出知识蒸馏新方法：数据集蒸馏

FAIR&MIT提出知识蒸馏新方法：数据集蒸馏

机器之心

3+阅读 · 2019年2月7日

通过时空模型迁移学习的无监督的跨数据集行人重新识别

通过时空模型迁移学习的无监督的跨数据集行人重新识别

统计学习与视觉计算组

8+阅读 · 2018年10月23日

只有100个标记数据，如何精确分类400万用户评论？

只有100个标记数据，如何精确分类400万用户评论？

深度学习世界

3+阅读 · 2018年8月21日

论文浅尝 | 用图网络做小样本学习

论文浅尝 | 用图网络做小样本学习

开放知识图谱

66+阅读 · 2018年6月30日

相关论文

Adaptive Consistency Regularization for Semi-Supervised Transfer Learning

Arxiv

23+阅读 · 2021年3月3日

M2GRL: A Multi-task Multi-view Graph Representation Learning Framework for Web-scale Recommender Systems

Arxiv

8+阅读 · 2020年6月1日

Evolving Losses for Unsupervised Video Representation Learning

Arxiv

23+阅读 · 2020年2月26日

Self-labelling via simultaneous clustering and representation learning

Self-labelling via simultaneous clustering and representation learning

Arxiv

3+阅读 · 2019年11月13日

Jointly Learning Entity and Relation Representations for Entity Alignment

Arxiv

3+阅读 · 2019年9月20日

Unsupervised Meta-Learning for Reinforcement Learning

Arxiv

8+阅读 · 2018年6月12日

Ermes: Emoji-Powered Representation Learning for Cross-Lingual Sentiment Classification

Arxiv

6+阅读 · 2018年6月7日

Visual Data Synthesis via GAN for Zero-Shot Video Classification

Arxiv

3+阅读 · 2018年4月26日

Discriminative Cross-View Binary Representation Learning

Arxiv

9+阅读 · 2018年4月4日

Identifying Corresponding Patches in SAR and Optical Images with a Pseudo-Siamese CNN

Arxiv

9+阅读 · 2018年1月25日

微信扫码咨询专知VIP会员