High-fidelity singing voice synthesis is challenging for neural vocoders due to extremely long continuous pronunciation, high sampling rate and strong expressiveness. Existing neural vocoders designed for text-to-speech cannot directly be applied to singing voice synthesis because they result in glitches in the generated spectrogram and poor high-frequency reconstruction. To tackle the difficulty of singing modeling, in this paper, we propose SingGAN, a singing voice vocoder with generative adversarial network. Specifically, 1) SingGAN uses source excitation to alleviate the glitch problem in the spectrogram; and 2) SingGAN adopts multi-band discriminators and introduces frequency-domain loss and sub-band feature matching loss to supervise high-frequency reconstruction. To our knowledge, SingGAN is the first vocoder designed towards high-fidelity multi-speaker singing voice synthesis. Experimental results show that SingGAN synthesizes singing voices with much higher quality (0.41 MOS gains) over the previous method. Further experiments show that combined with FastSpeech~2 as an acoustic model, SingGAN achieves high robustness in the singing voice synthesis pipeline and also performs well in speech synthesis.


翻译:由于超长的连续发音、高采样率和强烈的直观性能,高纤维歌声合成对神经电动器具有挑战性。现有的用于文本到语音的现有神经电动电动器不能直接用于歌唱合成,因为它们导致生成的光谱破碎和高频重建不良。为了解决歌唱模型的难度,我们在本文件中提议SingGAN为SingGAN,一个配有基因对抗网络的歌声语音合成器。具体地说,1 SingGAN利用源解说来缓解光谱中的 glitch 问题;2 SingGAN采用多波段歧视器,引入频率-光学损失和子波段特征匹配损失来监督高频重建。据我们所知,SingGAN是第一个设计高纤维多音频语音合成的电动电动器。实验结果表明,SingGAN对前一种方法合成方法合成了高质量(0.41 MOS收益)。进一步实验显示,与快速Spech-2合成声音合成器一起,还作为声波合成的合成模型,SingGANANAN实现高度的合成。

0
下载
关闭预览

相关内容

生成对抗网络 (Generative Adversarial Network, GAN) 是一类神经网络,通过轮流训练判别器 (Discriminator) 和生成器 (Generator),令其相互对抗,来从复杂概率分布中采样,例如生成图片、文字、语音等。GAN 最初由 Ian Goodfellow 提出,原论文见 Generative Adversarial Networks

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
【EMNLP2020】自然语言生成,Neural Language Generation
专知会员服务
38+阅读 · 2020年11月20日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
58+阅读 · 2019年10月17日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
SRGAN论文笔记
统计学习与视觉计算组
109+阅读 · 2018年4月12日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
Adversarial Variational Bayes: Unifying VAE and GAN 代码
CreateAMind
7+阅读 · 2017年10月4日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
GAN猫的脸
机械鸡
11+阅读 · 2017年7月8日
Generative Adversarial Text to Image Synthesis论文解读
统计学习与视觉计算组
13+阅读 · 2017年6月9日
Neural Speech Synthesis with Transformer Network
Arxiv
5+阅读 · 2019年1月30日
Arxiv
5+阅读 · 2018年5月1日
Arxiv
10+阅读 · 2018年3月23日
VIP会员
相关VIP内容
【EMNLP2020】自然语言生成,Neural Language Generation
专知会员服务
38+阅读 · 2020年11月20日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
58+阅读 · 2019年10月17日
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
SRGAN论文笔记
统计学习与视觉计算组
109+阅读 · 2018年4月12日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
Adversarial Variational Bayes: Unifying VAE and GAN 代码
CreateAMind
7+阅读 · 2017年10月4日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
GAN猫的脸
机械鸡
11+阅读 · 2017年7月8日
Generative Adversarial Text to Image Synthesis论文解读
统计学习与视觉计算组
13+阅读 · 2017年6月9日
Top
微信扫码咨询专知VIP会员