We present a neural text-to-speech system for fine-grained prosody transfer from one speaker to another. Conventional approaches for end-to-end prosody transfer typically use either fixed-dimensional or variable-length prosody embedding via a secondary attention to encode the reference signal. However, when trained on a single-speaker dataset, the conventional prosody transfer systems are not robust enough to speaker variability, especially in the case of a reference signal coming from an unseen speaker. Therefore, we propose decoupling of the reference signal alignment from the overall system. For this purpose, we pre-compute phoneme-level time stamps and use them to aggregate prosodic features per phoneme, injecting them into a sequence-to-sequence text-to-speech system. We incorporate a variational auto-encoder to further enhance the latent representation of prosody embeddings. We show that our proposed approach is significantly more stable and achieves reliable prosody transplantation from an unseen speaker. We also propose a solution to the use case in which the transcription of the reference signal is absent. We evaluate all our proposed methods using both objective and subjective listening tests.


翻译:我们提出了一个神经文本到声音系统,用于从一个发言者向另一个发言者进行微微分分辨假音传输。端到端分辨假音传输的常规方法通常使用固定的维度或多变的半衰期嵌入,通过对参考信号进行编码的二次关注进行嵌入。然而,在对单声传译数据集进行培训时,常规分解系统不够强大,不足以表达器变异性,特别是在一个隐蔽的发言者发出参考信号的情况下。因此,我们提议将参考信号与整个系统脱钩。为此,我们预先制作电话级时间戳,并将其用于每部电话的综合推进特征,将其注入一个顺序到顺序到顺序的文本到语音系统。我们采用了一个变式自动编码器,以进一步提高外观嵌入的潜伏性代表度。我们提出的方法非常稳定,并且从一个隐蔽的发言者那里可以实现可靠的分解。我们还提出了一种方法,用于使用一个既含有引用信号的转录录结果,又使用主观接收测试方法。我们提出的所有方法都进行了评估。

5
下载
关闭预览

相关内容

语音合成(Speech Synthesis),也称为文语转换(Text-to-Speech, TTS,它是将任意的输入文本转换成自然流畅的语音输出。语音合成涉及到人工智能、心理学、声学、语言学、数字信号处理、计算机科学等多个学科技术,是信息处理领域中的一项前沿技术。 随着计算机技术的不断提高,语音合成技术从早期的共振峰合成,逐步发展为波形拼接合成和统计参数语音合成,再发展到混合语音合成;合成语音的质量、自然度已经得到明显提高,基本能满足一些特定场合的应用需求。目前,语音合成技术在银行、医院等的信息播报系统、汽车导航系统、自动应答呼叫中心等都有广泛应用,取得了巨大的经济效益。 另外,随着智能手机、MP3、PDA 等与我们生活密切相关的媒介的大量涌现,语音合成的应用也在逐渐向娱乐、语音教学、康复治疗等领域深入。可以说语音合成正在影响着人们生活的方方面面。
最新《生成式对抗网络》简介,25页ppt
专知会员服务
169+阅读 · 2020年6月28日
一份循环神经网络RNNs简明教程,37页ppt
专知会员服务
170+阅读 · 2020年5月6日
Python计算导论,560页pdf,Introduction to Computing Using Python
专知会员服务
71+阅读 · 2020年5月5日
因果图,Causal Graphs,52页ppt
专知会员服务
241+阅读 · 2020年4月19日
强化学习最新教程,17页pdf
专知会员服务
171+阅读 · 2019年10月11日
Interspeech 2019 | 从顶会看语音技术的发展趋势
AI科技评论
16+阅读 · 2019年9月19日
强化学习三篇论文 避免遗忘等
CreateAMind
19+阅读 · 2019年5月24日
Transferring Knowledge across Learning Processes
CreateAMind
26+阅读 · 2019年5月18日
人工智能 | 国际会议截稿信息9条
Call4Papers
4+阅读 · 2018年3月13日
【推荐】YOLO实时目标检测(6fps)
机器学习研究会
20+阅读 · 2017年11月5日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Deformable Style Transfer
Arxiv
14+阅读 · 2020年3月24日
Teacher-Student Training for Robust Tacotron-based TTS
Neural Speech Synthesis with Transformer Network
Arxiv
5+阅读 · 2019年1月30日
VIP会员
Top
微信扫码咨询专知VIP会员