This work examines the content and usefulness of disentangled phone and speaker representations from two separately trained VQ-VAE systems: one trained on multilingual data and another trained on monolingual data. We explore the multi- and monolingual models using four small proof-of-concept tasks: copy-synthesis, voice transformation, linguistic code-switching, and content-based privacy masking. From these tasks, we reflect on how disentangled phone and speaker representations can be used to manipulate speech in a meaningful way. Our experiments demonstrate that the VQ representations are suitable for these tasks, including creating new voices by mixing speaker representations together. We also present our novel technique to conceal the content of targeted words within an utterance by manipulating phone VQ codes, while retaining speaker identity and intelligibility of surrounding words. Finally, we discuss recommendations for further increasing the viability of disentangled representations.


翻译:这项工作考察了两个单独受过训练的VQ-VAE系统解开的电话和发言者陈述的内容和用处:一个是多语种数据培训,另一个是单一语言数据培训;我们利用四种小型概念验证任务,即抄录合成、语音转换、语言编码转换和内容保密遮掩等,探讨多语种模式和单一语言模式的内容和用处。我们从这些任务中思考如何用解开的电话和发言者陈述来以有意义的方式操纵言论。我们的实验表明,VQ陈述适合于这些任务,包括通过混合演讲人陈述创造新的声音。我们还介绍了我们通过调用VQ电话代码在直言中隐藏目标词内容的新方法,同时保留演讲人的身份和周围语言的洞察力。最后,我们讨论了如何进一步增加解开陈述的可行性的建议。

0
下载
关闭预览

相关内容

Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
vae 相关论文 表示学习 1
CreateAMind
12+阅读 · 2018年9月6日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
3+阅读 · 2018年8月27日
Arxiv
6+阅读 · 2018年1月29日
Arxiv
3+阅读 · 2017年12月18日
VIP会员
相关VIP内容
Top
微信扫码咨询专知VIP会员