Cross-speaker style transfer (CSST) in text-to-speech (TTS) synthesis aims at transferring a speaking style to the synthesised speech in a target speaker's voice. Most previous CSST approaches rely on expensive high-quality data carrying desired speaking style during training and require a reference utterance to obtain speaking style descriptors as conditioning on the generation of a new sentence. This work presents Referee, a robust reference-free CSST approach for expressive TTS, which fully leverages low-quality data to learn speaking styles from text. Referee is built by cascading a text-to-style (T2S) model with a style-to-wave (S2W) model. Phonetic PosteriorGram (PPG), phoneme-level pitch and energy contours are adopted as fine-grained speaking style descriptors, which are predicted from text using the T2S model. A novel pretrain-refinement method is adopted to learn a robust T2S model by only using readily accessible low-quality data. The S2W model is trained with high-quality target data, which is adopted to effectively aggregate style descriptors and generate high-fidelity speech in the target speaker's voice. Experimental results are presented, showing that Referee outperforms a global-style-token (GST)-based baseline approach in CSST.


翻译:在文本到语音(TTS)的合成中,跨语音风格传输(CSST)旨在将发言风格转换成以目标发言者声音合成的语音。前的CSST方法大多依赖高价高质量数据,在培训期间带有理想的语音风格,需要参考语句表达,以获得语音风格描述器作为生成新句子的附加条件。这份工作展示了Referee,这是用于表达 TTS的一种强有力的无参考的CSST方法,它充分利用低质量数据从文本中学习语音风格。被选者是通过一种带有样式到波模式模型的文本到式(T2S)模式构建的。音频式PoicesterGram(PG)、电话级音级音调和能源配置器被采纳为精准的语音风格描述器,这是用 T2S 模型从文本预测的。采用了一种新型的、基于前置力的数据来学习稳健的 T2S2S模式。S2W 模式由一种具有风格到风格的文本模式模式模式模式,它能以高质量的GS-Sdeal-Sdealal-Spealal-Spealal-Speal-Speal 演示结果,它以展示了高质量的G-Speal-Speal-Speal-Speal-Speal-Speal-Speal-Speal-S-S-S

0
下载
关闭预览

相关内容

语音合成(Speech Synthesis),也称为文语转换(Text-to-Speech, TTS,它是将任意的输入文本转换成自然流畅的语音输出。语音合成涉及到人工智能、心理学、声学、语言学、数字信号处理、计算机科学等多个学科技术,是信息处理领域中的一项前沿技术。 随着计算机技术的不断提高,语音合成技术从早期的共振峰合成,逐步发展为波形拼接合成和统计参数语音合成,再发展到混合语音合成;合成语音的质量、自然度已经得到明显提高,基本能满足一些特定场合的应用需求。目前,语音合成技术在银行、医院等的信息播报系统、汽车导航系统、自动应答呼叫中心等都有广泛应用,取得了巨大的经济效益。 另外,随着智能手机、MP3、PDA 等与我们生活密切相关的媒介的大量涌现,语音合成的应用也在逐渐向娱乐、语音教学、康复治疗等领域深入。可以说语音合成正在影响着人们生活的方方面面。
【芝加哥大学】可变形的风格转移,Deformable Style Transfer
专知会员服务
30+阅读 · 2020年3月26日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
已删除
将门创投
6+阅读 · 2018年12月3日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
教你用Python来玩跳一跳
七月在线实验室
6+阅读 · 2018年1月2日
Arxiv
8+阅读 · 2018年11月27日
VIP会员
相关VIP内容
【芝加哥大学】可变形的风格转移,Deformable Style Transfer
专知会员服务
30+阅读 · 2020年3月26日
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
已删除
将门创投
6+阅读 · 2018年12月3日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
教你用Python来玩跳一跳
七月在线实验室
6+阅读 · 2018年1月2日
Top
微信扫码咨询专知VIP会员