Emotional voice conversion models adapt the emotion in speech without changing the speaker identity or linguistic content. They are less data hungry than text-to-speech models and allow to generate large amounts of emotional data for downstream tasks. In this work we propose EmoCat, a language-agnostic emotional voice conversion model. It achieves high-quality emotion conversion in German with less than 45 minutes of German emotional recordings by exploiting large amounts of emotional data in US English. EmoCat is an encoder-decoder model based on CopyCat, a voice conversion system which transfers prosody. We use adversarial training to remove emotion leakage from the encoder to the decoder. The adversarial training is improved by a novel contribution to gradient reversal to truly reverse gradients. This allows to remove only the leaking information and to converge to better optima with higher conversion performance. Evaluations show that Emocat can convert to different emotions but misses on emotion intensity compared to the recordings, especially for very expressive emotions. EmoCat is able to achieve audio quality on par with the recordings for five out of six tested emotion intensities.


翻译:情感声音转换模型在不改变语言身份或语言内容的情况下适应言语中的情感。 它们比文本到语音模型更缺乏数据, 并且能够为下游任务生成大量情感数据 。 在此工作中, 我们提议 EmoCat, 这是一种语言不可知的情感声音转换模型 。 它通过利用大量美国英语情感数据, 实现了德国语情感转换质量不小于45分钟的德国语情感转换 。 EmoCat 是一种基于复制器( CopyCat ) 的编码解密模型。 我们使用对抗性培训将情感从编码器中渗漏到解密器中。 我们使用对抗性培训将情感泄漏到解密器中。 对抗性培训通过对梯度转换到真正反向梯度的新贡献而得到改进 。 这只能消除泄漏的信息, 并且通过更高的转换性能而更佳的调调。 评估显示, Emocat 可以转换成不同的情感, 但与录音相比, 特别是非常直观的情绪变异。 EmoCat 能够实现方的音质量, 5个测试的录音记录。

0
下载
关闭预览

相关内容

ACM/IEEE第23届模型驱动工程语言和系统国际会议,是模型驱动软件和系统工程的首要会议系列,由ACM-SIGSOFT和IEEE-TCSE支持组织。自1998年以来,模型涵盖了建模的各个方面,从语言和方法到工具和应用程序。模特的参加者来自不同的背景,包括研究人员、学者、工程师和工业专业人士。MODELS 2019是一个论坛,参与者可以围绕建模和模型驱动的软件和系统交流前沿研究成果和创新实践经验。今年的版本将为建模社区提供进一步推进建模基础的机会,并在网络物理系统、嵌入式系统、社会技术系统、云计算、大数据、机器学习、安全、开源等新兴领域提出建模的创新应用以及可持续性。 官网链接:http://www.modelsconference.org/
FlowQA: Grasping Flow in History for Conversational Machine Comprehension
专知会员服务
30+阅读 · 2019年10月18日
[综述]基于深度学习的开放领域对话系统研究综述
专知会员服务
80+阅读 · 2019年10月12日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
一种基于Sequence-to-Sequence的高质量对话生成方法
科技创新与创业
9+阅读 · 2017年11月13日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
可解释的CNN
CreateAMind
17+阅读 · 2017年10月5日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
CoQA: A Conversational Question Answering Challenge
Arxiv
7+阅读 · 2018年8月21日
VIP会员
相关VIP内容
FlowQA: Grasping Flow in History for Conversational Machine Comprehension
专知会员服务
30+阅读 · 2019年10月18日
[综述]基于深度学习的开放领域对话系统研究综述
专知会员服务
80+阅读 · 2019年10月12日
Top
微信扫码咨询专知VIP会员