Although recent end-to-end text-to-speech (TTS) systems have achieved high-quality synthesized speech, there are still several factors that degrade the quality of synthesized speech, including lack of training data or information loss during knowledge distillation. To address the problem, we propose a novel way to train a TTS model under the supervision of perceptual loss, which measures the distance between the maximum speech quality score and the predicted one. We first pre-train a mean opinion score (MOS) prediction model and then train a TTS model in the direction of maximizing the MOS of synthesized speech predicted by the pre-trained MOS prediction model. Through this method, we can improve the quality of synthesized speech universally (i.e., regardless of the network architecture or the cause of the speech quality degradation) and efficiently (i.e., without increasing the inference time or the model complexity). The evaluation results for MOS and phoneme error rate demonstrate that our proposed approach improves previous models in terms of both naturalness and intelligibility.


翻译:虽然最近端到端的文本到语音系统取得了高质量的合成语音,但仍有若干因素降低了合成语音的质量,包括缺乏培训数据或知识蒸馏过程中信息丢失。为了解决这个问题,我们提出一种新的方法,在感官损失的监督下培训TTS模型,以测量最高语音质量评分与预测值之间的距离。我们首先对中值意见评分(MOS)预测模型进行预演,然后对TTS模型进行培训,以尽量扩大预先培训的MOS预测模型预测的综合语音的MOS。通过这种方法,我们可以普遍提高合成语音的质量(即无论网络结构或语言质量退化的原因如何),并提高效率(即不增加发酵时间或模型的复杂性)。MOS和电话错误率的评价结果表明,我们拟议的方法在自然性和智能性方面改进了以前的模型。

0
下载
关闭预览

相关内容

语音合成(Speech Synthesis),也称为文语转换(Text-to-Speech, TTS,它是将任意的输入文本转换成自然流畅的语音输出。语音合成涉及到人工智能、心理学、声学、语言学、数字信号处理、计算机科学等多个学科技术,是信息处理领域中的一项前沿技术。 随着计算机技术的不断提高,语音合成技术从早期的共振峰合成,逐步发展为波形拼接合成和统计参数语音合成,再发展到混合语音合成;合成语音的质量、自然度已经得到明显提高,基本能满足一些特定场合的应用需求。目前,语音合成技术在银行、医院等的信息播报系统、汽车导航系统、自动应答呼叫中心等都有广泛应用,取得了巨大的经济效益。 另外,随着智能手机、MP3、PDA 等与我们生活密切相关的媒介的大量涌现,语音合成的应用也在逐渐向娱乐、语音教学、康复治疗等领域深入。可以说语音合成正在影响着人们生活的方方面面。
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
大数据 | 顶级SCI期刊专刊/国际会议信息7条
Call4Papers
10+阅读 · 2018年12月29日
Facebook PyText 在 Github 上开源了
AINLP
7+阅读 · 2018年12月14日
利用动态深度学习预测金融时间序列基于Python
量化投资与机器学习
18+阅读 · 2018年10月30日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
计算机类 | 期刊专刊截稿信息9条
Call4Papers
4+阅读 · 2018年1月26日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
【计算机类】期刊专刊/国际会议截稿信息6条
Call4Papers
3+阅读 · 2017年10月13日
回归预测&时间序列预测
GBASE数据工程部数据团队
44+阅读 · 2017年5月17日
Teacher-Student Training for Robust Tacotron-based TTS
Neural Speech Synthesis with Transformer Network
Arxiv
5+阅读 · 2019年1月30日
Arxiv
3+阅读 · 2018年11月13日
VIP会员
相关VIP内容
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
大数据 | 顶级SCI期刊专刊/国际会议信息7条
Call4Papers
10+阅读 · 2018年12月29日
Facebook PyText 在 Github 上开源了
AINLP
7+阅读 · 2018年12月14日
利用动态深度学习预测金融时间序列基于Python
量化投资与机器学习
18+阅读 · 2018年10月30日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
计算机类 | 期刊专刊截稿信息9条
Call4Papers
4+阅读 · 2018年1月26日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
【计算机类】期刊专刊/国际会议截稿信息6条
Call4Papers
3+阅读 · 2017年10月13日
回归预测&时间序列预测
GBASE数据工程部数据团队
44+阅读 · 2017年5月17日
Top
微信扫码咨询专知VIP会员