A promising approach for speech dereverberation is based on supervised learning, where a deep neural network (DNN) is trained to predict the direct sound from noisy-reverberant speech. This data-driven approach is based on leveraging prior knowledge of clean speech patterns and does not explicitly exploit the linear-filter structure in reverberation, i.e., that reverberation results from a linear convolution between a room impulse response (RIR) and a dry source signal. In this work, we propose to exploit this linear-filter structure within a deep learning based monaural speech dereverberation framework. The key idea is to first estimate the direct-path signal of the target speaker using a DNN and then identify signals that are decayed and delayed copies of the estimated direct-path signal, as these can be reliably considered as reverberation. They can be either directly removed for dereverberation, or used as extra features for another DNN to perform better dereverberation. To identify the copies, we estimate the underlying filter (or RIR) by efficiently solving a linear regression problem per frequency in the time-frequency domain. We then modify the proposed algorithm for speaker separation in reverberant and noisy-reverberant conditions. State-of-the-art speech dereverberation and speaker separation results are obtained on the REVERB, SMS-WSJ, and WHAMR! datasets.


翻译:语言偏差的有希望的语音偏差方法是基于有监督的学习,在这个过程中,深神经网络(DNNN)经过培训,可以预测来自噪音反动言词的直接声音。这种数据驱动方法的基础是利用对清洁言语模式的先前知识,而没有在回动中明确利用线性过滤结构,即回动来自一个室脉冲反应(RIR)和一个干源信号之间的线性折变。在这项工作中,我们提议利用一个深深学习的、基于月经言调的调变异框架内的线性过滤器结构。关键思想是首先估计目标演讲者使用DNN的直向路径信号,然后确定已经腐蚀和延迟的估计直接路徑信号,因为这些信号可以可靠地被视为回动。它们可以直接去除,或者作为另一个DNN(DN)的外特性来进行更好的调动!为了确定副本,我们通过在时间-频率上高效地解决一个直线性倒退问题,我们估计了基础过滤器(或RIR),然后在时间-频率上,我们修改了S-R-RER的演讲结果。我们随后在S-Ral-Ralation-Ralation-Ralation上提议的演算算算出在时间-Ral-Ral-Ral-Ral-res-res-res-res-res-res-res-resab 状态上,然后对一个演讲者对一个演讲者对一个演讲客质的状态的演讲者进行修改提议的状态进行调的状态进行调。

0
下载
关闭预览

相关内容

ICML 2021论文收录
专知会员服务
123+阅读 · 2021年5月8日
专知会员服务
26+阅读 · 2021年4月2日
机器学习入门的经验与建议
专知会员服务
94+阅读 · 2019年10月10日
【资源】语音增强资源集锦
专知
8+阅读 · 2020年7月4日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
【NIPS2018】接收论文列表
专知
5+阅读 · 2018年9月10日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【推荐】深度学习时序处理文献列表
机器学习研究会
7+阅读 · 2017年11月29日
【推荐】YOLO实时目标检测(6fps)
机器学习研究会
20+阅读 · 2017年11月5日
【推荐】深度学习目标检测全面综述
机器学习研究会
21+阅读 · 2017年9月13日
【音乐】Attention
英语演讲视频每日一推
3+阅读 · 2017年8月22日
Arxiv
0+阅读 · 2021年10月13日
Phase-aware Speech Enhancement with Deep Complex U-Net
Arxiv
8+阅读 · 2018年11月27日
VIP会员
相关资讯
【资源】语音增强资源集锦
专知
8+阅读 · 2020年7月4日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
【NIPS2018】接收论文列表
专知
5+阅读 · 2018年9月10日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【推荐】深度学习时序处理文献列表
机器学习研究会
7+阅读 · 2017年11月29日
【推荐】YOLO实时目标检测(6fps)
机器学习研究会
20+阅读 · 2017年11月5日
【推荐】深度学习目标检测全面综述
机器学习研究会
21+阅读 · 2017年9月13日
【音乐】Attention
英语演讲视频每日一推
3+阅读 · 2017年8月22日
Top
微信扫码咨询专知VIP会员