Diffusion probabilistic models have demonstrated an outstanding capability to model natural images and raw audio waveforms through a paired diffusion and reverse processes. The unique property of the reverse process (namely, eliminating non-target signals from the Gaussian noise and noisy signals) could be utilized to restore clean signals. Based on this property, we propose a diffusion probabilistic model-based speech enhancement (DiffuSE) model that aims to recover clean speech signals from noisy signals. The fundamental architecture of the proposed DiffuSE model is similar to that of DiffWave--a high-quality audio waveform generation model that has a relatively low computational cost and footprint. To attain better enhancement performance, we designed an advanced reverse process, termed the supportive reverse process, which adds noisy speech in each time-step to the predicted speech. The experimental results show that DiffuSE yields performance that is comparable to related audio generative models on the standardized Voice Bank corpus SE task. Moreover, relative to the generally suggested full sampling schedule, the proposed supportive reverse process especially improved the fast sampling, taking few steps to yield better enhancement results over the conventional full step inference process.


翻译:反向进程的独特特性(即消除高山噪音和噪音信号的非目标信号)可用于恢复清洁信号。基于此特性,我们提议采用基于扩散概率模型的语音增强模型(Diffuse)模型,该模型旨在从噪音信号中恢复清洁的语音信号。提议的Diffuse模型的基本结构类似于Diffwave-一个高质量的音波形成模型,该模型的计算成本和足迹相对较低。为了实现更好的增强性能,我们设计了一个先进的反向进程,称为支持性反向进程,在预测的演讲的每个步骤增加噪音。实验结果表明,Diffuse生成的性能可与标准化语音银行SE系统任务的相关音频谱化模型相仿。此外,与一般建议的全面抽样计划相比,拟议的支持性反向进程特别改进了快速取样程序,仅采取几步步就可比常规全面步骤产生更好的增强效果。

0
下载
关闭预览

相关内容

语音增强是指当语音信号被各种各样的噪声干扰、甚至淹没后,从噪声背景中提取有用的语音信号,抑制、降低噪声干扰的技术。一句话,从含噪语音中提取尽可能纯净的原始语音。
专知会员服务
28+阅读 · 2021年8月2日
注意力机制综述
专知会员服务
198+阅读 · 2021年1月26日
【干货书】机器学习速查手册,135页pdf
专知会员服务
122+阅读 · 2020年11月20日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
机器学习入门的经验与建议
专知会员服务
90+阅读 · 2019年10月10日
【资源】语音增强资源集锦
专知
8+阅读 · 2020年7月4日
Transferring Knowledge across Learning Processes
CreateAMind
26+阅读 · 2019年5月18日
IEEE | DSC 2019诚邀稿件 (EI检索)
Call4Papers
10+阅读 · 2019年2月25日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
实战 | 用Python做图像处理(一)
七月在线实验室
25+阅读 · 2018年5月23日
Linguistically Regularized LSTMs for Sentiment Classification
黑龙江大学自然语言处理实验室
8+阅读 · 2018年5月4日
计算机视觉近一年进展综述
机器学习研究会
8+阅读 · 2017年11月25日
【推荐】自然语言处理(NLP)指南
机器学习研究会
35+阅读 · 2017年11月17日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Teacher-Student Training for Robust Tacotron-based TTS
Arxiv
8+阅读 · 2018年11月27日
VIP会员
相关VIP内容
专知会员服务
28+阅读 · 2021年8月2日
注意力机制综述
专知会员服务
198+阅读 · 2021年1月26日
【干货书】机器学习速查手册,135页pdf
专知会员服务
122+阅读 · 2020年11月20日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
机器学习入门的经验与建议
专知会员服务
90+阅读 · 2019年10月10日
相关资讯
【资源】语音增强资源集锦
专知
8+阅读 · 2020年7月4日
Transferring Knowledge across Learning Processes
CreateAMind
26+阅读 · 2019年5月18日
IEEE | DSC 2019诚邀稿件 (EI检索)
Call4Papers
10+阅读 · 2019年2月25日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
实战 | 用Python做图像处理(一)
七月在线实验室
25+阅读 · 2018年5月23日
Linguistically Regularized LSTMs for Sentiment Classification
黑龙江大学自然语言处理实验室
8+阅读 · 2018年5月4日
计算机视觉近一年进展综述
机器学习研究会
8+阅读 · 2017年11月25日
【推荐】自然语言处理(NLP)指南
机器学习研究会
35+阅读 · 2017年11月17日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员