In this paper, we pose the current state-of-the-art voice conversion (VC) systems as two-encoder-one-decoder models. After comparing these models, we combine the best features and propose Assem-VC, a new state-of-the-art any-to-many non-parallel VC system. This paper also introduces the GTA finetuning in VC, which significantly improves the quality and the speaker similarity of the outputs. Assem-VC outperforms the previous state-of-the-art approaches in both the naturalness and the speaker similarity on the VCTK dataset. As an objective result, the degree of speaker disentanglement of features such as phonetic posteriorgrams (PPG) is also explored. Our investigation indicates that many-to-many VC results are no longer distinct from human speech and similar quality can be achieved with any-to-many models. Audio samples are available at https://mindslab-ai.github.io/assem-vc/


翻译:在本文中,我们将目前最先进的语音转换系统(VC)作为二进coder-one-decoder模型。在比较这些模型之后,我们结合了最佳功能,并提出了Assem-VC,这是一个新的最先进的任何至许多非平行VC系统。本文还介绍了VC的GTA微调,该微调大大提高了产出的质量和音量相似性。Assem-VC在自然特性和VCTK数据集的发言者相似性方面都超越了以前最先进的方法。作为一个客观的结果,还探讨了扬声器分解功能的程度,例如语音后视镜(PPG)。我们的调查显示,许多到许多VC的结果不再不同于人类的言语,任何到许多模型都可达到类似的质量。音样样样见https://mindslab-ai.github.io/assem-vc/ https://mindslab-ai.github.io/assem-vc/。

0
下载
关闭预览

相关内容

专知会员服务
45+阅读 · 2020年10月31日
【ACMMM2020】条件推理的医学视觉问答
专知会员服务
39+阅读 · 2020年9月9日
【Manning新书】现代Java实战,592页pdf
专知会员服务
101+阅读 · 2020年5月22日
【ACL2020-Allen AI】预训练语言模型中的无监督域聚类
专知会员服务
24+阅读 · 2020年4月7日
简明扼要!Python教程手册,206页pdf
专知会员服务
48+阅读 · 2020年3月24日
强化学习最新教程,17页pdf
专知会员服务
177+阅读 · 2019年10月11日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
人工智能 | 国际会议截稿信息9条
Call4Papers
4+阅读 · 2018年3月13日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
6+阅读 · 2020年4月14日
Neural Speech Synthesis with Transformer Network
Arxiv
5+阅读 · 2019年1月30日
Arxiv
7+阅读 · 2018年12月10日
Video-to-Video Synthesis
Arxiv
9+阅读 · 2018年8月20日
Arxiv
4+阅读 · 2018年4月29日
VIP会员
相关VIP内容
专知会员服务
45+阅读 · 2020年10月31日
【ACMMM2020】条件推理的医学视觉问答
专知会员服务
39+阅读 · 2020年9月9日
【Manning新书】现代Java实战,592页pdf
专知会员服务
101+阅读 · 2020年5月22日
【ACL2020-Allen AI】预训练语言模型中的无监督域聚类
专知会员服务
24+阅读 · 2020年4月7日
简明扼要!Python教程手册,206页pdf
专知会员服务
48+阅读 · 2020年3月24日
强化学习最新教程,17页pdf
专知会员服务
177+阅读 · 2019年10月11日
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
人工智能 | 国际会议截稿信息9条
Call4Papers
4+阅读 · 2018年3月13日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员