Most existing deep learning based binaural speaker separation systems focus on producing a monaural estimate for each of the target speakers, and thus do not preserve the interaural cues, which are crucial for human listeners to perform sound localization and lateralization. In this study, we address talker-independent binaural speaker separation with interaural cues preserved in the estimated binaural signals. Specifically, we extend a newly-developed gated recurrent neural network for monaural separation by additionally incorporating self-attention mechanisms and dense connectivity. We develop an end-to-end multiple-input multiple-output system, which directly maps from the binaural waveform of the mixture to those of the speech signals. The experimental results show that our proposed approach achieves significantly better separation performance than a recent binaural separation approach. In addition, our approach effectively preserves the interaural cues, which improves the accuracy of sound localization.


翻译:大部分现有的基于深层学习的双声扬声器分离系统都侧重于为每个目标发言者制作一个修道院估计,因此无法保存对于人类听众进行音响本地化和横向化至关重要的跨声导线。在本研究中,我们用在估计的双声波信号中保存的跨声导声导线处理独立双声导线分离问题。具体地说,我们通过进一步结合自我注意机制和密集的连通性,扩展了新开发的寺院分离门常规神经网络。我们开发了一个从语言信号混合的双声波式直接绘制出多输出的终端到终端多输出系统。实验结果显示,我们拟议方法的分离性能大大优于最近的双声导线分离方法。此外,我们的方法有效地维护了声波导线,提高了声音本地化的准确性。

0
下载
关闭预览

相关内容

知识图谱推理,50页ppt,Salesforce首席科学家Richard Socher
专知会员服务
105+阅读 · 2020年6月10日
【CVPR2020-百度】用于视觉识别的门控信道变换
专知会员服务
12+阅读 · 2020年3月30日
内涵网络嵌入:Content-rich Network Embedding
我爱读PAMI
4+阅读 · 2019年11月5日
已删除
将门创投
6+阅读 · 2019年4月10日
【推荐】RNN/LSTM时序预测
机器学习研究会
25+阅读 · 2017年9月8日
Neural Speech Synthesis with Transformer Network
Arxiv
5+阅读 · 2019年1月30日
Arxiv
5+阅读 · 2018年10月4日
Arxiv
11+阅读 · 2018年1月18日
VIP会员
相关VIP内容
知识图谱推理,50页ppt,Salesforce首席科学家Richard Socher
专知会员服务
105+阅读 · 2020年6月10日
【CVPR2020-百度】用于视觉识别的门控信道变换
专知会员服务
12+阅读 · 2020年3月30日
相关资讯
内涵网络嵌入:Content-rich Network Embedding
我爱读PAMI
4+阅读 · 2019年11月5日
已删除
将门创投
6+阅读 · 2019年4月10日
【推荐】RNN/LSTM时序预测
机器学习研究会
25+阅读 · 2017年9月8日
Top
微信扫码咨询专知VIP会员