Speech restoration aims to remove distortions in speech signals. Prior methods mainly focus on single-task speech restoration(SSR), such as speech enhancement or speech declipping. However, SSR systems only focus on one task and do not address the general speech restoration problem. Previous SSR systems also have limited performance in speech restoration tasks such as speech super-resolution. To overcome those limitations, we propose a general speech restoration(GSR) task that attempts to remove multiple distortions simultaneously. Furthermore, we propose VoiceFixer, a generative framework to address the GSR tasks. VoiceFixer consists of an analysis stage and a synthesis stage to mimic the speech analysis and comprehension of the human auditory system. We employ a ResUNet to model the analysis module and a neural vocoder to model the synthesis module. We evaluate VoiceFixer with additive noise, room reverberation, low-resolution, and clipping distortions. Our baseline GSR model achieves a 0.499 higher mean opinion score(MOS) than the speech enhancement SSR model. VoiceFixer further surpasses the GSR baseline model on the MOS score by 0.256. In addition, we observe that VoiceFixer generalizes well to severely degraded real speech recordings, indicating its potential in restoring old movies and historical speeches. The source code is available at https://github.com/haoheliu/voicefixer_main.


翻译:恢复语音的目的是消除语音信号中的扭曲现象; 先前的方法主要侧重于单一任务语言恢复(SSR),如语音增强或语音解析等。 然而, SSR系统仅侧重于一个任务,而没有解决一般语音恢复问题。 以前的SSR系统在语音恢复任务(如超分辨率)中的表现也有限。 为了克服这些限制,我们提议了一般性语音恢复(GSR)任务,以同时消除多重扭曲现象。 此外,我们提议了语音恢复(GSR)任务,这是一个处理GSR任务的发源框架。 语音Fixer是一个分析阶段和一个合成阶段,以模拟语音分析和理解人类听力系统。我们使用 ResUNet来模拟分析模块,而神经电算器来模拟合成模块。 我们用添加噪音、 房间回动、 低分辨率和剪动扭曲来评估语音恢复器。 我们的基线GSR模型比加强语音改革模型的平均值高出0.499。 语音Fix进一步超越了MOS的GSR基线模型, 以0.256/ helmasium 进行模拟。 此外,我们观察了老式的系统代码源代码, 正在重化。

0
下载
关闭预览

相关内容

语音增强是指当语音信号被各种各样的噪声干扰、甚至淹没后,从噪声背景中提取有用的语音信号,抑制、降低噪声干扰的技术。一句话,从含噪语音中提取尽可能纯净的原始语音。
最新《Transformers模型》教程,64页ppt
专知会员服务
314+阅读 · 2020年11月26日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
60+阅读 · 2019年10月17日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
计算机视觉最佳实践、代码示例和相关文档
专知会员服务
19+阅读 · 2019年10月9日
【资源】语音增强资源集锦
专知
8+阅读 · 2020年7月4日
RoBERTa中文预训练模型:RoBERTa for Chinese
PaperWeekly
57+阅读 · 2019年9月16日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
详解GAN的谱归一化(Spectral Normalization)
PaperWeekly
11+阅读 · 2019年2月13日
2018机器学习开源资源盘点
专知
6+阅读 · 2019年2月2日
语音顶级会议Interspeech2018接受论文列表!
专知
6+阅读 · 2018年6月10日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
Arxiv
14+阅读 · 2021年6月30日
Arxiv
8+阅读 · 2018年11月27日
Arxiv
8+阅读 · 2018年5月21日
VIP会员
相关资讯
【资源】语音增强资源集锦
专知
8+阅读 · 2020年7月4日
RoBERTa中文预训练模型:RoBERTa for Chinese
PaperWeekly
57+阅读 · 2019年9月16日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
详解GAN的谱归一化(Spectral Normalization)
PaperWeekly
11+阅读 · 2019年2月13日
2018机器学习开源资源盘点
专知
6+阅读 · 2019年2月2日
语音顶级会议Interspeech2018接受论文列表!
专知
6+阅读 · 2018年6月10日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
Top
微信扫码咨询专知VIP会员