近年来,基于完全递归神经网络(RNN)的端到端的语音识别模型在单信道和多信道环境下都被证明是有效的。在这项工作中,我们通过关注两个方面来探索Transformer模型在这些任务中的使用。我们将语音识别模型中基于RNN的编码器解码器替换为Transformer架构。第二,为了使用Transformer 屏蔽网络的神经beamformer在多通道的情况下,我们修改self-attention组件被限制在一段,而不是整个序列,以减少计算。除了模型架构的改进外,我们还加入了外部去重预处理,即加权预测误差(WPE),使我们的模型能够处理混响信号。
地址:
https://www.zhuanzhi.ai/paper/33de6b45e6cba668cb00ada8d69ee7bd
专知便捷查看
便捷下载,请关注专知公众号(点击上方蓝色专知关注)
后台回复“TSP” 就可以获取《【上海交大-ICASSP2020】Transformer端到端的多说话人语音识别》论文专知下载链接