Singing voice synthesis (SVS) systems are built to synthesize high-quality and expressive singing voice, in which the acoustic model generates the acoustic features (e.g., mel-spectrogram) given a music score. Previous singing acoustic models adopt a simple loss (e.g., L1 and L2) or generative adversarial network (GAN) to reconstruct the acoustic features, while they suffer from over-smoothing and unstable training issues respectively, which hinder the naturalness of synthesized singing. In this work, we propose DiffSinger, an acoustic model for SVS based on the diffusion probabilistic model. DiffSinger is a parameterized Markov chain that iteratively converts the noise into mel-spectrogram conditioned on the music score. By implicitly optimizing variational bound, DiffSinger can be stably trained and generate realistic outputs. To further improve the voice quality and speed up inference, we introduce a shallow diffusion mechanism to make better use of the prior knowledge learned by the simple loss. Specifically, DiffSinger starts generation at a shallow step smaller than the total number of diffusion steps, according to the intersection of the diffusion trajectories of the ground-truth mel-spectrogram and the one predicted by a simple mel-spectrogram decoder. Besides, we propose boundary prediction methods to locate the intersection and determine the shallow step adaptively. The evaluations conducted on a Chinese singing dataset demonstrate that DiffSinger outperforms state-of-the-art SVS work. Extensional experiments also prove the generalization of our methods on text-to-speech task (DiffSpeech). Audio samples: https://diffsinger.github.io. Codes: https://github.com/MoonInTheRiver/DiffSinger.


翻译:歌声合成( SVS) 系统是用来合成高质量和表达式的歌声的合成( SVS) 系统, 以合成高品质和表达式的歌声声音, 在其中, 音响模型产生音效特征( 例如Mel- spectrogrogram), 给一个音乐分数 。 前歌声声模型采用简单的丢失( 例如L1 和 L2) 或基因化对抗网络( GAN) 来重建音效特征, 而它们分别受到过度移动和不稳定的训练问题, 从而阻碍合成歌声的自然性。 在此工作中, 我们提议 DiffSinger, 以扩散性模型为基础, 为 SVS 生成声学模型的音效模型 。 DiffS 将音效转换成以音乐分数为条件的MMMMS; 隐含优化调调码, DiffSinger可以进行精度训练, 并产生现实的输出。 为了进一步提高声音质量, 我们引入一个浅的传播机制, 在简单的损失中, DiffS- 开始生成一个直流- streal- slationroupregicreadal 工作, 演示一个小的S to stradrodudustraldrodustral 。

0
下载
关闭预览

相关内容

TPAMI 2021|VideoDG:首个视频领域泛化模型
专知会员服务
21+阅读 · 2021年12月31日
【PAISS 2021 教程】概率散度与生成式模型,92页ppt
专知会员服务
34+阅读 · 2021年11月30日
【CVPR2021】动态度量学习
专知会员服务
40+阅读 · 2021年3月30日
MIT最新《贝叶斯深度学习》综述论文,37页pdf
专知会员服务
52+阅读 · 2021年1月4日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
80+阅读 · 2020年7月26日
【微众银行】联邦学习白皮书_v2.0,48页pdf,
专知会员服务
168+阅读 · 2020年4月26日
【资源】语音增强资源集锦
专知
8+阅读 · 2020年7月4日
Cross-Modal & Metric Learning 跨模态检索专题-2
如何区分并记住常见的几种 Normalization 算法
极市平台
19+阅读 · 2019年7月24日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
人工智能 | 国际会议信息6条
Call4Papers
5+阅读 · 2019年1月4日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
计算机类 | 国际会议信息7条
Call4Papers
3+阅读 · 2017年11月17日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Neural Speech Synthesis with Transformer Network
Arxiv
5+阅读 · 2019年1月30日
VIP会员
相关资讯
【资源】语音增强资源集锦
专知
8+阅读 · 2020年7月4日
Cross-Modal & Metric Learning 跨模态检索专题-2
如何区分并记住常见的几种 Normalization 算法
极市平台
19+阅读 · 2019年7月24日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
人工智能 | 国际会议信息6条
Call4Papers
5+阅读 · 2019年1月4日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
计算机类 | 国际会议信息7条
Call4Papers
3+阅读 · 2017年11月17日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Top
微信扫码咨询专知VIP会员