Although the conventional mask-based minimum variance distortionless response (MVDR) could reduce the non-linear distortion, the residual noise level of the MVDR separated speech is still high. In this paper, we propose a spatio-temporal recurrent neural network based beamformer (RNN-BF) for target speech separation. This new beamforming framework directly learns the beamforming weights from the estimated speech and noise spatial covariance matrices. Leveraging on the temporal modeling capability of RNNs, the RNN-BF could automatically accumulate the statistics of the speech and noise covariance matrices to learn the frame-level beamforming weights in a recursive way. An RNN-based generalized eigenvalue (RNN-GEV) beamformer and a more generalized RNN beamformer (GRNN-BF) are proposed. We further improve the RNN-GEV and the GRNN-BF by using layer normalization to replace the commonly used mask normalization on the covariance matrices. The proposed GRNN-BF obtains better performance against prior arts in terms of speech quality (PESQ), speech-to-noise ratio (SNR) and word error rate (WER).


翻译:虽然常规的以面具为基础的最低差异扭曲反应(MDDR)可以减少非线性扭曲,但MDDre分离的言论的剩余噪音水平仍然很高。在本文中,我们提议为目标言言言分离建立一个基于Bamex(RNN-BF)的平地-时热经常性神经网络网络(RNNN-BF),这个新的波成形框架直接从估计的言语和噪音空间差异变异矩阵中了解波形权重。利用区域网点点点点点的时间模型化能力,区域网可以自动积累语音和噪声变异差矩阵的统计数据,以循环方式学习框架一级成形加权数,以学习框架一级成形加权数。提出了基于区域网(RNNN-NNN-GEV)的通用电子元值(RNNNN-GEV),以及更普遍的RNNNNN(GNN-BF),我们进一步改进区域网-GNV和GNN-BF,办法是利用层正常化,用层标准化来取代常使用的差质矩阵上的面具正常化正常化。拟议的GNNNNNNN-B在言质量和言质量(P-言质量的言价比率、言价、言价、言价-言价-言价比、言价-言价-言价比、言价比、言价-言价-言价比、言价、言价-言价-言比、言价-言、言价-言价-言比、言比、言比、言、言价-言价-言价比、言价比、言价比、言价比、言价比、言价比、言价比、言价比、言、言、言、言、言价比、言价-言价-言节、言、言、言、言、言、言-言-言、言、言、言-言-言-言、言-言节-言、言、言、言、言、言、言、言、言、言、言、言、言、言、言、言、言、言、言、言、言、言、言比率、言、言价比率、言、言、言、言、言、言、言比率、言、言

0
下载
关闭预览

相关内容

RNN:循环神经网络,是深度学习的一种模型。
可信机器学习的公平性综述
专知会员服务
69+阅读 · 2021年2月23日
【干货书】机器学习速查手册,135页pdf
专知会员服务
127+阅读 · 2020年11月20日
【MIT深度学习课程】深度序列建模,Deep Sequence Modeling
专知会员服务
78+阅读 · 2020年2月3日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
【资源】语音增强资源集锦
专知
8+阅读 · 2020年7月4日
LibRec 精选:基于参数共享的CNN-RNN混合模型
LibRec智能推荐
6+阅读 · 2019年3月7日
LibRec 精选:基于LSTM的序列推荐实现(PyTorch)
LibRec智能推荐
50+阅读 · 2018年8月27日
语音顶级会议Interspeech2018接受论文列表!
专知
6+阅读 · 2018年6月10日
Linguistically Regularized LSTMs for Sentiment Classification
黑龙江大学自然语言处理实验室
8+阅读 · 2018年5月4日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【推荐】RNN最新研究进展综述
机器学习研究会
26+阅读 · 2018年1月6日
干货|基于双流递归神经网络的人体骨架行为识别!
全球人工智能
13+阅读 · 2017年12月15日
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
【推荐】全卷积语义分割综述
机器学习研究会
19+阅读 · 2017年8月31日
Adversarial Mutual Information for Text Generation
Arxiv
13+阅读 · 2020年6月30日
Neural Speech Synthesis with Transformer Network
Arxiv
5+阅读 · 2019年1月30日
Arxiv
8+阅读 · 2018年11月27日
VIP会员
相关VIP内容
可信机器学习的公平性综述
专知会员服务
69+阅读 · 2021年2月23日
【干货书】机器学习速查手册,135页pdf
专知会员服务
127+阅读 · 2020年11月20日
【MIT深度学习课程】深度序列建模,Deep Sequence Modeling
专知会员服务
78+阅读 · 2020年2月3日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
相关资讯
【资源】语音增强资源集锦
专知
8+阅读 · 2020年7月4日
LibRec 精选:基于参数共享的CNN-RNN混合模型
LibRec智能推荐
6+阅读 · 2019年3月7日
LibRec 精选:基于LSTM的序列推荐实现(PyTorch)
LibRec智能推荐
50+阅读 · 2018年8月27日
语音顶级会议Interspeech2018接受论文列表!
专知
6+阅读 · 2018年6月10日
Linguistically Regularized LSTMs for Sentiment Classification
黑龙江大学自然语言处理实验室
8+阅读 · 2018年5月4日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【推荐】RNN最新研究进展综述
机器学习研究会
26+阅读 · 2018年1月6日
干货|基于双流递归神经网络的人体骨架行为识别!
全球人工智能
13+阅读 · 2017年12月15日
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
【推荐】全卷积语义分割综述
机器学习研究会
19+阅读 · 2017年8月31日
Top
微信扫码咨询专知VIP会员