Although the conventional mask-based minimum variance distortionless response (MVDR) could reduce the non-linear distortion, the residual noise level of the MVDR separated speech is still high. In this paper, we propose a spatio-temporal recurrent neural network based beamformer (RNN-BF) for target speech separation. This new beamforming framework directly learns the beamforming weights from the estimated speech and noise spatial covariance matrices. Leveraging on the temporal modeling capability of RNNs, the RNN-BF could automatically accumulate the statistics of the speech and noise covariance matrices to learn the frame-level beamforming weights in a recursive way. An RNN-based generalized eigenvalue (RNN-GEV) beamformer and a more generalized RNN beamformer (GRNN-BF) are proposed. We further improve the RNN-GEV and the GRNN-BF by using layer normalization to replace the commonly used mask normalization on the covariance matrices. The proposed GRNN-BF obtains better performance against prior arts in terms of speech quality (PESQ), speech-to-noise ratio (SNR) and word error rate (WER).


翻译:虽然常规的以面具为基础的最低差异扭曲反应(MDDR)可以减少非线性扭曲,但MDDre分离的言论的剩余噪音水平仍然很高。在本文中,我们提议为目标言言言分离建立一个基于Bamex(RNN-BF)的平地-时热经常性神经网络网络(RNNN-BF),这个新的波成形框架直接从估计的言语和噪音空间差异变异矩阵中了解波形权重。利用区域网点点点点点的时间模型化能力,区域网可以自动积累语音和噪声变异差矩阵的统计数据,以循环方式学习框架一级成形加权数,以学习框架一级成形加权数。提出了基于区域网(RNNN-NNN-GEV)的通用电子元值(RNNNN-GEV),以及更普遍的RNNNNN(GNN-BF),我们进一步改进区域网-GNV和GNN-BF,办法是利用层正常化,用层标准化来取代常使用的差质矩阵上的面具正常化正常化。拟议的GNNNNNNN-B在言质量和言质量(P-言质量的言价比率、言价、言价、言价-言价-言价比、言价-言价-言价比、言价比、言价-言价-言价比、言价、言价-言价-言比、言价-言、言价-言价-言比、言比、言比、言、言价-言价-言价比、言价比、言价比、言价比、言价比、言价比、言价比、言价比、言、言、言、言、言价比、言价-言价-言节、言、言、言、言、言、言-言-言、言、言、言-言-言-言、言-言节-言、言、言、言、言、言、言、言、言、言、言、言、言、言、言、言、言、言、言、言、言、言、言比率、言、言价比率、言、言、言、言、言、言、言比率、言、言

0
下载
关闭预览

相关内容

RNN:循环神经网络,是深度学习的一种模型。
专知会员服务
25+阅读 · 2021年4月2日
迁移学习简明教程,11页ppt
专知会员服务
107+阅读 · 2020年8月4日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
【新书】Python编程基础,669页pdf
专知会员服务
194+阅读 · 2019年10月10日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
【资源】语音增强资源集锦
专知
8+阅读 · 2020年7月4日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
误差反向传播——RNN
统计学习与视觉计算组
18+阅读 · 2018年9月6日
语音顶级会议Interspeech2018接受论文列表!
专知
6+阅读 · 2018年6月10日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
【推荐】RNN/LSTM时序预测
机器学习研究会
25+阅读 · 2017年9月8日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
Neural Speech Synthesis with Transformer Network
Arxiv
5+阅读 · 2019年1月30日
Arxiv
8+阅读 · 2018年11月27日
Arxiv
3+阅读 · 2018年3月14日
VIP会员
相关VIP内容
专知会员服务
25+阅读 · 2021年4月2日
迁移学习简明教程,11页ppt
专知会员服务
107+阅读 · 2020年8月4日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
【新书】Python编程基础,669页pdf
专知会员服务
194+阅读 · 2019年10月10日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
相关资讯
【资源】语音增强资源集锦
专知
8+阅读 · 2020年7月4日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
误差反向传播——RNN
统计学习与视觉计算组
18+阅读 · 2018年9月6日
语音顶级会议Interspeech2018接受论文列表!
专知
6+阅读 · 2018年6月10日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
【推荐】RNN/LSTM时序预测
机器学习研究会
25+阅读 · 2017年9月8日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
Top
微信扫码咨询专知VIP会员