题目: MULTI-TASK SELF-SUPERVISED LEARNING FOR ROBUST SPEECH RECOGNITION
摘要: 尽管人们对无监督学习越来越感兴趣,但从无标签的音频中提取有意义的知识仍然是一个公开的挑战。为了在这个方向上迈出一步,我们最近提出了一个问题不可知的语音编码器(PASE),它结合了一个卷积编码器和多个神经网络,称为workers,其任务是解决自监督的问题,不需要手动注释的真值。PASE证明能够捕捉相关的语音信息,包括说话者的声纹和音素。本文提出了一种改进的PASE+,用于在噪声和混响环境下进行鲁棒语音识别。为此,我们使用了一个在线语音失真模块,它用各种随机干扰来污染输入信号。然后,我们提出一种改进的编码器,更好地学习短期和长期语音动态与递归网络和卷积网络的有效结合。最后,我们完善了用于自监督的workers,以鼓励更好的合作。
TIMIT、DIRHA和CHiME-5的结果表明,PASE+ sig-明显优于之前版本的PASE以及常见的声学特性。有趣的是,PASE+学习适用于高度不匹配的声学条件的可转移特征。