目前已经提出了几种支持单阶段训练和并行采样的端到端文本语音(TTS)模型,但它们的样本质量与两阶段TTS系统不匹配。在这项工作中,我们提出了一种并行的端到端TTS方法,它比目前的两阶段模型产生了更自然的声音。我们的方法采用了增加了规范化流程的变分推理和对抗性训练过程,提高了生成建模的表达能力。我们也提出一个随机的持续时间预测器来合成不同节奏的语音输入文本。通过对潜在变量的不确定性建模和随机持续时间预测,我们的方法表达了自然的一对多关系,在这种关系中,文本输入可以以不同的音高和节奏以多种方式表达。对LJ Speech(一个单独的说话人数据集)的主观评价(平均意见得分,或MOS)表明,我们的方法比最好的公开可用的TTS系统表现更好,达到了与ground truth相媲美的MOS。
https://www.zhuanzhi.ai/paper/9b9aaf2367201ce21477fde317d5b78f