目前已经提出了几种支持单阶段训练和并行采样的端到端文本语音(TTS)模型,但它们的样本质量与两阶段TTS系统不匹配。在这项工作中,我们提出了一种并行的端到端TTS方法,它比目前的两阶段模型产生了更自然的声音。我们的方法采用了增加了规范化流程的变分推理和对抗性训练过程,提高了生成建模的表达能力。我们也提出一个随机的持续时间预测器来合成不同节奏的语音输入文本。通过对潜在变量的不确定性建模和随机持续时间预测,我们的方法表达了自然的一对多关系,在这种关系中,文本输入可以以不同的音高和节奏以多种方式表达。对LJ Speech(一个单独的说话人数据集)的主观评价(平均意见得分,或MOS)表明,我们的方法比最好的公开可用的TTS系统表现更好,达到了与ground truth相媲美的MOS。

https://www.zhuanzhi.ai/paper/9b9aaf2367201ce21477fde317d5b78f

成为VIP会员查看完整内容
8

相关内容

专知会员服务
36+阅读 · 2021年7月17日
专知会员服务
26+阅读 · 2021年7月11日
专知会员服务
42+阅读 · 2021年7月1日
专知会员服务
38+阅读 · 2021年6月11日
专知会员服务
35+阅读 · 2021年6月3日
专知会员服务
50+阅读 · 2021年5月19日
专知会员服务
15+阅读 · 2021年5月13日
专知会员服务
80+阅读 · 2021年5月10日
【NeurIPS 2020】视觉和语言表示学习的大规模对抗性训练
专知会员服务
14+阅读 · 2020年10月27日
FastSpeech语音合成系统技术升级,微软联合浙大提出FastSpeech2
微软研究院AI头条
4+阅读 · 2020年6月23日
论文浅尝 | 基于知识图谱难度可控的多跳问题生成
开放知识图谱
5+阅读 · 2020年2月16日
赛尔笔记 | 条件变分自编码器(CVAE)
AINLP
28+阅读 · 2019年11月8日
学界 | 稳定、表征丰富的球面变分自编码器
机器之心
5+阅读 · 2018年10月12日
【谷歌推出TFGAN】开源的轻量级生成对抗网络库
GAN生成式对抗网络
3+阅读 · 2017年12月16日
Arxiv
0+阅读 · 2021年8月20日
Phase-aware Speech Enhancement with Deep Complex U-Net
Arxiv
10+阅读 · 2018年3月23日
Arxiv
9+阅读 · 2018年1月4日
VIP会员
相关VIP内容
专知会员服务
36+阅读 · 2021年7月17日
专知会员服务
26+阅读 · 2021年7月11日
专知会员服务
42+阅读 · 2021年7月1日
专知会员服务
38+阅读 · 2021年6月11日
专知会员服务
35+阅读 · 2021年6月3日
专知会员服务
50+阅读 · 2021年5月19日
专知会员服务
15+阅读 · 2021年5月13日
专知会员服务
80+阅读 · 2021年5月10日
【NeurIPS 2020】视觉和语言表示学习的大规模对抗性训练
专知会员服务
14+阅读 · 2020年10月27日
微信扫码咨询专知VIP会员