Singing voice conversion (SVC) is one promising technique which can enrich the way of human-computer interaction by endowing a computer the ability to produce high-fidelity and expressive singing voice. In this paper, we propose DiffSVC, an SVC system based on denoising diffusion probabilistic model. DiffSVC uses phonetic posteriorgrams (PPGs) as content features. A denoising module is trained in DiffSVC, which takes destroyed mel spectrogram produced by the diffusion/forward process and its corresponding step information as input to predict the added Gaussian noise. We use PPGs, fundamental frequency features and loudness features as auxiliary input to assist the denoising process. Experiments show that DiffSVC can achieve superior conversion performance in terms of naturalness and voice similarity to current state-of-the-art SVC approaches.


翻译:唱声转换( SVC) 是一种很有希望的技术,它能够通过赋予计算机以产生高菲度和表达式歌声的能力来丰富人类-计算机互动的方式。 在本文中,我们建议DiffSVC(基于分流扩散概率模型的SVC系统)作为基于分流扩散概率模型的SVC(SiffSVC)系统,DiffSVC(PPGs)使用语音后方位转换(PPPGs)作为内容特性。DiffSVC(DiffSVC)培训了一种分流模块,该模块将扩散/前方过程及其相应的步骤信息产生的被摧毁的光谱作为预测增加的高斯噪音的投入。我们使用PPGs(PPGs)、基本频率特征和声响度功能作为辅助投入,以协助分流过程。实验显示DiffSVC(PPC)在自然性和声音方面可以实现优异性转换性表现,并类似于当前最先进的SVC(SVC)方法。

0
下载
关闭预览

相关内容

【CVPR2021】动态度量学习
专知会员服务
40+阅读 · 2021年3月30日
【CVPR2021】自监督几何感知
专知会员服务
46+阅读 · 2021年3月6日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
已删除
将门创投
3+阅读 · 2019年1月15日
【SIGIR2018】五篇对抗训练文章
专知
12+阅读 · 2018年7月9日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
On Prosody Modeling for ASR+TTS based Voice Conversion
Arxiv
1+阅读 · 2021年7月18日
Arxiv
0+阅读 · 2021年7月18日
Arxiv
11+阅读 · 2018年1月18日
VIP会员
Top
微信扫码咨询专知VIP会员