【上海交大-ICASSP2020】Transformer端到端的多说话人语音识别

2020 年 2 月 16 日 专知

近年来，基于完全递归神经网络(RNN)的端到端的语音识别模型在单信道和多信道环境下都被证明是有效的。在这项工作中，我们通过关注两个方面来探索Transformer模型在这些任务中的使用。我们将语音识别模型中基于RNN的编码器解码器替换为Transformer架构。第二,为了使用Transformer 屏蔽网络的神经beamformer在多通道的情况下,我们修改self-attention组件被限制在一段,而不是整个序列,以减少计算。除了模型架构的改进外，我们还加入了外部去重预处理，即加权预测误差(WPE)，使我们的模型能够处理混响信号。

地址：

https://www.zhuanzhi.ai/paper/33de6b45e6cba668cb00ada8d69ee7bd

专知便捷查看

便捷下载，请关注专知公众号（点击上方蓝色专知关注）

后台回复“TSP” 就可以获取《【上海交大-ICASSP2020】Transformer端到端的多说话人语音识别》论文专知下载链接

专知，专业可信的人工智能知识分发，让认知协作更快更好！欢迎注册登录专知www.zhuanzhi.ai，获取5000+AI主题干货知识资料！

欢迎微信扫一扫加入专知人工智能知识星球群，获取最新AI专业干货知识教程资料和与专家交流咨询！

点击“ 阅读原文 ”，了解使用专知 ，查看获取5000+AI主题知识资源

登录查看更多

相关内容

ICASSP

关注 4

ICASSP是全球最大，最全面的技术会议，重点是信号处理及其应用。会议主题包括但不限于以下主题：音频和声音信号处理、量子信号处理、生物医学信号与图像处理、遥感与信号处理、压缩感知，采样和字典学习、传感器阵列和多通道信号处理、信号处理的设计与实现、大数据信号处理、财务信号处理。官网地址：http://dblp.uni-trier.de/db/conf/icassp/

【ECCV2020-海康威视】用于深度表示学习的无监督图像分类

专知会员服务

70+阅读 · 2020年7月6日

【ICML2020-伯克利】反直觉！大模型重压缩提升Transformer的训练和推理效率，47页ppt

专知会员服务

70+阅读 · 2020年7月1日

【NeurIPS2020提交论文】通用表示Transformer层的小样本图像分类

专知会员服务

58+阅读 · 2020年6月29日

【IJCAI2020-Facebook】利用弱标记数据对声音进行大规模的视听学习

专知会员服务

19+阅读 · 2020年6月3日