There are many deterministic mathematical operations (e.g. compression, clipping, downsampling) that degrade speech quality considerably. In this paper we introduce a neural network architecture, based on a modification of the DiffWave model, that aims to restore the original speech signal. DiffWave, a recently published diffusion-based vocoder, has shown state-of-the-art synthesized speech quality and relatively shorter waveform generation times, with only a small set of parameters. We replace the mel-spectrum upsampler in DiffWave with a deep CNN upsampler, which is trained to alter the degraded speech mel-spectrum to match that of the original speech. The model is trained using the original speech waveform, but conditioned on the degraded speech mel-spectrum. Post-training, only the degraded mel-spectrum is used as input and the model generates an estimate of the original speech. Our model results in improved speech quality (original DiffWave model as baseline) on several different experiments. These include improving the quality of speech degraded by LPC-10 compression, AMR-NB compression, and signal clipping. Compared to the original DiffWave architecture, our scheme achieves better performance on several objective perceptual metrics and in subjective comparisons. Improvements over baseline are further amplified in a out-of-corpus evaluation setting.


翻译:有许多决定性的数学操作(例如压缩、剪剪、下取样),使语言质量大幅下降。在本文中,我们引入了一个神经网络结构,其基础是修改DiffWave模型,目的是恢复最初的语音信号。DiffWave是最近出版的传播基础vocoder,它展示了最先进的综合语音质量和相对较短的波形生成时间,只有一小套参数。我们用一个深层次的CNN上层扫描器取代了DiffWave的Mel-spectrum upsampler。我们用一个深层CNN上层的CNN上层扫描器来取代Diff-spampler,该软件经过培训,以改变退化的语音信号网络结构为基础,该模型使用原有的语音波形来进行训练,但以退化的语音图像光谱为条件。 后期培训仅使用退化的 mel-spectrum作为投入,该模型产生对原始演讲的进一步估计。我们在多个不同实验中改进的语音质量(原版Diff-Wave模型作为基线),这些实验包括改进原版的语音结构质量,由LPC 10MRBSBSBS 实现。

1
下载
关闭预览

相关内容

专知会员服务
41+阅读 · 2021年7月27日
【干货书】机器学习速查手册,135页pdf
专知会员服务
126+阅读 · 2020年11月20日
MIT新书《强化学习与最优控制》
专知会员服务
277+阅读 · 2019年10月9日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
IEEE | DSC 2019诚邀稿件 (EI检索)
Call4Papers
10+阅读 · 2019年2月25日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
R工程化—Rest API 之plumber包
R语言中文社区
11+阅读 · 2018年12月25日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
Arxiv
14+阅读 · 2021年6月30日
Arxiv
4+阅读 · 2019年8月7日
Neural Speech Synthesis with Transformer Network
Arxiv
5+阅读 · 2019年1月30日
Arxiv
3+阅读 · 2018年11月13日
VIP会员
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
IEEE | DSC 2019诚邀稿件 (EI检索)
Call4Papers
10+阅读 · 2019年2月25日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
R工程化—Rest API 之plumber包
R语言中文社区
11+阅读 · 2018年12月25日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
Top
微信扫码咨询专知VIP会员