【上海交大-ICASSP2020】Transformer端到端的多说话人语音识别

2020 年 2 月 16 日 专知

近年来,基于完全递归神经网络(RNN)的端到端的语音识别模型在单信道和多信道环境下都被证明是有效的。在这项工作中,我们通过关注两个方面来探索Transformer模型在这些任务中的使用。我们将语音识别模型中基于RNN的编码器解码器替换为Transformer架构。第二,为了使用Transformer 屏蔽网络的神经beamformer在多通道的情况下,我们修改self-attention组件被限制在一段,而不是整个序列,以减少计算。除了模型架构的改进外,我们还加入了外部去重预处理,即加权预测误差(WPE),使我们的模型能够处理混响信号。

地址:

https://www.zhuanzhi.ai/paper/33de6b45e6cba668cb00ada8d69ee7bd




专知便捷查看

便捷下载,请关注专知公众号(点击上方蓝色专知关注)

  • 后台回复“TSP” 就可以获取【上海交大-ICASSP2020】Transformer端到端的多说话人语音识别》论文专知下载链接

专知,专业可信的人工智能知识分发,让认知协作更快更好!欢迎注册登录专知www.zhuanzhi.ai,获取5000+AI主题干货知识资料!
欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程资料和与专家交流咨询
点击“ 阅读原文 ”,了解使用 专知 ,查看获取5000+AI主题知识资源
登录查看更多
1

相关内容

ICASSP是全球最大,最全面的技术会议,重点是信号处理及其应用。会议主题包括但不限于以下主题:音频和声音信号处理、量子信号处理、生物医学信号与图像处理、遥感与信号处理、压缩感知,采样和字典学习、传感器阵列和多通道信号处理、信号处理的设计与实现、大数据信号处理、财务信号处理。 官网地址:http://dblp.uni-trier.de/db/conf/icassp/
Arxiv
6+阅读 · 2020年4月14日
Arxiv
6+阅读 · 2019年7月11日
Music Transformer
Arxiv
5+阅读 · 2018年12月12日
VIP会员
相关VIP内容
Top
微信扫码咨询专知VIP会员