SANE-TTS: 稳定自然端到端到端多语种文本到语音 (SANE-TTS: Stable And Natural End-to-End Multilingual Text-to-Speech)

In this paper, we present SANE-TTS, a stable and natural end-to-end multilingual TTS model. By the difficulty of obtaining multilingual corpus for given speaker, training multilingual TTS model with monolingual corpora is unavoidable. We introduce speaker regularization loss that improves speech naturalness during cross-lingual synthesis as well as domain adversarial training, which is applied in other multilingual TTS models. Furthermore, by adding speaker regularization loss, replacing speaker embedding with zero vector in duration predictor stabilizes cross-lingual inference. With this replacement, our model generates speeches with moderate rhythm regardless of source speaker in cross-lingual synthesis. In MOS evaluation, SANE-TTS achieves naturalness score above 3.80 both in cross-lingual and intralingual synthesis, where the ground truth score is 3.99. Also, SANE-TTS maintains speaker similarity close to that of ground truth even in cross-lingual inference. Audio samples are available on our web page.

翻译：在本文中,我们介绍SANE-TTS这个稳定和自然的端到端的多语种TTS模式。由于很难为特定发言者获得多语种的TTS模式,因此培训多语种TTS模式是不可避免的。我们引入了在跨语言合成和其他多语种TTS模式中应用的对抗性培训中提高语言自然性的演讲人正规化损失。此外,通过增加演讲人正规化损失,取代在持续时间预测中以零矢量嵌入的演讲人稳定了跨语言的推论。有了这一替代,我们的模型生成了节奏适度的演讲,而不论跨语言合成中的来源演讲人如何。在MOS评价中,SANE-TTS在跨语言和语言内部综合中都取得了3.80以上的自然性评分,而地面事实评分为3.99。此外,SANE-TTS保持演讲人与地面真相的相似性,即使在交叉语言推论中也是如此。我们网页上有音样。

相关内容

语音合成

关注 491

语音合成（Speech Synthesis），也称为文语转换（Text-to-Speech, TTS,它是将任意的输入文本转换成自然流畅的语音输出。语音合成涉及到人工智能、心理学、声学、语言学、数字信号处理、计算机科学等多个学科技术，是信息处理领域中的一项前沿技术。随着计算机技术的不断提高，语音合成技术从早期的共振峰合成,逐步发展为波形拼接合成和统计参数语音合成，再发展到混合语音合成；合成语音的质量、自然度已经得到明显提高，基本能满足一些特定场合的应用需求。目前，语音合成技术在银行、医院等的信息播报系统、汽车导航系统、自动应答呼叫中心等都有广泛应用，取得了巨大的经济效益。另外，随着智能手机、MP3、PDA 等与我们生活密切相关的媒介的大量涌现，语音合成的应用也在逐渐向娱乐、语音教学、康复治疗等领域深入。可以说语音合成正在影响着人们生活的方方面面。