题目: MULTI-TASK SELF-SUPERVISED LEARNING FOR ROBUST SPEECH RECOGNITION

摘要: 尽管人们对无监督学习越来越感兴趣,但从无标签的音频中提取有意义的知识仍然是一个公开的挑战。为了在这个方向上迈出一步,我们最近提出了一个问题不可知的语音编码器(PASE),它结合了一个卷积编码器和多个神经网络,称为workers,其任务是解决自监督的问题,不需要手动注释的真值。PASE证明能够捕捉相关的语音信息,包括说话者的声纹和音素。本文提出了一种改进的PASE+,用于在噪声和混响环境下进行鲁棒语音识别。为此,我们使用了一个在线语音失真模块,它用各种随机干扰来污染输入信号。然后,我们提出一种改进的编码器,更好地学习短期和长期语音动态与递归网络和卷积网络的有效结合。最后,我们完善了用于自监督的workers,以鼓励更好的合作。

TIMIT、DIRHA和CHiME-5的结果表明,PASE+ sig-明显优于之前版本的PASE以及常见的声学特性。有趣的是,PASE+学习适用于高度不匹配的声学条件的可转移特征。

成为VIP会员查看完整内容
37

相关内容

自监督学习(self-supervised learning)可以被看作是机器学习的一种“理想状态”,模型直接从无标签数据中自行学习,无需标注数据。
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
164+阅读 · 2020年3月18日
近期声学领域前沿论文(No. 3)
深度学习每日摘要
24+阅读 · 2019年3月31日
笔记 | Deep active learning for named entity recognition
黑龙江大学自然语言处理实验室
24+阅读 · 2018年5月27日
半监督多任务学习:Semisupervised Multitask Learning
我爱读PAMI
18+阅读 · 2018年4月29日
开源自动语音识别系统wav2letter (附实现教程)
七月在线实验室
9+阅读 · 2018年1月8日
一文读懂语音识别史
机械鸡
9+阅读 · 2017年10月16日
Arxiv
6+阅读 · 2019年7月11日
Arxiv
17+阅读 · 2018年4月2日
Arxiv
11+阅读 · 2018年1月18日
VIP会员
相关VIP内容
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
164+阅读 · 2020年3月18日
相关资讯
近期声学领域前沿论文(No. 3)
深度学习每日摘要
24+阅读 · 2019年3月31日
笔记 | Deep active learning for named entity recognition
黑龙江大学自然语言处理实验室
24+阅读 · 2018年5月27日
半监督多任务学习:Semisupervised Multitask Learning
我爱读PAMI
18+阅读 · 2018年4月29日
开源自动语音识别系统wav2letter (附实现教程)
七月在线实验室
9+阅读 · 2018年1月8日
一文读懂语音识别史
机械鸡
9+阅读 · 2017年10月16日
微信扫码咨询专知VIP会员