Variational autoencoder-based voice conversion (VAE-VC) has the advantage of requiring only pairs of speeches and speaker labels for training. Unlike the majority of the research in VAE-VC which focuses on utilizing auxiliary losses or discretizing latent variables, this paper investigates how an increasing model expressiveness has benefits and impacts on the VAE-VC. Specifically, we first analyze VAE-VC from a rate-distortion perspective, and point out that model expressiveness is significant for VAE-VC because rate and distortion reflect similarity and naturalness of converted speeches. Based on the analysis, we propose a novel VC method using a deep hierarchical VAE, which has high model expressiveness as well as having fast conversion speed thanks to its non-autoregressive decoder. Also, our analysis reveals another problem that similarity can be degraded when the latent variable of VAEs has redundant information. We address the problem by controlling the information contained in the latent variable using $\beta$-VAE objective. In the experiment using VCTK corpus, the proposed method achieved mean opinion scores higher than 3.5 on both naturalness and similarity in inter-gender settings, which are higher than the scores of existing autoencoder-based VC methods.


翻译:与侧重于利用辅助损失或分散潜伏变量的VAE-VC的大多数研究不同,本文调查了日益增强的模型表达性如何对VAE-VC产生益处和影响。 具体地说,我们首先从比例扭曲角度分析VAE-VC,指出模型表达性对VAE-VC很重要,因为速度和扭曲反映了转换的演讲的相似性和自然性。根据分析,我们提出一种新型VC方法,采用高等级VAE, 该方法具有较高的模型表达性,并由于其非显性脱色作用而具有快速转换速度。此外,我们的分析还揭示了另一个问题,即当VAE的潜伏变量有多余的信息时,类似性可能会退化。我们通过使用美元和本代元VAE-VAE目标控制潜伏变量所含的信息,解决了这一问题。 在使用VCTC-VAE-C的类似度、比现有平均分级法在VCT-C中达到的比目前平均分级更高分级法的类似性方法的实验中,在VCT-C中,在VC-C-campposial-dealalalal-detionalphal-dealal-procal-palizional-pal-pal-pal pasion-palmental-pal-palizionalizional-pal-pal-pal-pal-pal-palization-pal-pal-pal-pal-pal-palizal-palmentalization-dation-palation-pal-dementality-de-de-de-dement)。

0
下载
关闭预览

相关内容

专知会员服务
29+阅读 · 2021年8月2日
专知会员服务
61+阅读 · 2020年3月19日
强化学习最新教程,17页pdf
专知会员服务
177+阅读 · 2019年10月11日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
逆强化学习-学习人先验的动机
CreateAMind
16+阅读 · 2019年1月18日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
Adversarial Variational Bayes: Unifying VAE and GAN 代码
CreateAMind
7+阅读 · 2017年10月4日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Arxiv
9+阅读 · 2019年4月19日
Phase-aware Speech Enhancement with Deep Complex U-Net
Arxiv
11+阅读 · 2018年3月23日
VIP会员
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
逆强化学习-学习人先验的动机
CreateAMind
16+阅读 · 2019年1月18日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
Adversarial Variational Bayes: Unifying VAE and GAN 代码
CreateAMind
7+阅读 · 2017年10月4日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Top
微信扫码咨询专知VIP会员