This paper describes the Microsoft end-to-end neural text to speech (TTS) system: DelightfulTTS for Blizzard Challenge 2021. The goal of this challenge is to synthesize natural and high-quality speech from text, and we approach this goal in two perspectives: The first is to directly model and generate waveform in 48 kHz sampling rate, which brings higher perception quality than previous systems with 16 kHz or 24 kHz sampling rate; The second is to model the variation information in speech through a systematic design, which improves the prosody and naturalness. Specifically, for 48 kHz modeling, we predict 16 kHz mel-spectrogram in acoustic model, and propose a vocoder called HiFiNet to directly generate 48 kHz waveform from predicted 16 kHz mel-spectrogram, which can better trade off training efficiency, modelling stability and voice quality. We model variation information systematically from both explicit (speaker ID, language ID, pitch and duration) and implicit (utterance-level and phoneme-level prosody) perspectives: 1) For speaker and language ID, we use lookup embedding in training and inference; 2) For pitch and duration, we extract the values from paired text-speech data in training and use two predictors to predict the values in inference; 3) For utterance-level and phoneme-level prosody, we use two reference encoders to extract the values in training, and use two separate predictors to predict the values in inference. Additionally, we introduce an improved Conformer block to better model the local and global dependency in acoustic model. For task SH1, DelightfulTTS achieves 4.17 mean score in MOS test and 4.35 in SMOS test, which indicates the effectiveness of our proposed system


翻译:本文描述微软端到端神经文字到言语系统(TTS) : Blizzard 挑战 2021 的亮度TTS 。 挑战的目标是从文本中合成自然和高质量的语言, 我们从两个角度来对待这个目标: 第一是直接建模和生成48千赫兹取样率的波形, 从而在16千赫兹或24千赫兹取样率的情况下, 提高感知质量; 第二是通过系统设计, 改善言语中的变异信息, 从而改善言语的性能和自然性。 具体来说, 在48千赫兹建模中, 我们预测模型的目标是, 16千赫兹到高端语言的言语, 直接生成48千赫兹波形。 第二, 我们从直观、 直观、 直观、 直观和直观 直观的言语中, 向导、 直观的言语、 直观、 直观、 直观、 直观的言、 直观、 直观、 直观、 直观的言、 直观、 直观、 直观、 直观、 直观、 直观、 直观、 直观、 直观、 直观、 和直观、 根、 向、 直方、 向、 向、 向、 向、 向、 向、 向、 向、 向、 向、 向、 向、 向、 向、 向、 向、 向、 向、 、 向、 向、 向、 、 向、 向、 向、 、 向、 、 、 向、 向、 向、 、 、 、 向、 向、 向、 、 、 、 、 、 向、 、 、 、 、 、 、 、 、 向、 、 向、 向、 向、 向、 向、 、 、 向、 向、 向、 向、 、 、 向、 向、 向、 向、 、 向、 向、 向、 向、 向、 、 向、

0
下载
关闭预览

相关内容

暴雪娱乐(Blizzard Entertainment)是一家全球知名的电脑游戏及电视游戏软件公司,代表作包括魔兽争霸系列,星际争霸系列以及暗黑破坏神系列。 暴雪娱乐现为美国电子游戏发行商动视暴雪的独立部门公司,实际两者在研发过程都是独立操作。
专知会员服务
15+阅读 · 2021年5月13日
基于BERT的ASR纠错
深度学习自然语言处理
8+阅读 · 2020年7月16日
FastSpeech语音合成系统技术升级,微软联合浙大提出FastSpeech2
微软研究院AI头条
4+阅读 · 2020年6月23日
【ACL2020放榜!】事件抽取、关系抽取、NER、Few-Shot 相关论文整理
深度学习自然语言处理
18+阅读 · 2020年5月22日
【论文笔记】通俗理解少样本文本分类 (Few-Shot Text Classification) (1)
深度学习自然语言处理
7+阅读 · 2020年4月8日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
近期声学领域前沿论文(No. 4)
深度学习每日摘要
7+阅读 · 2019年5月1日
语音顶级会议Interspeech2018接受论文列表!
专知
6+阅读 · 2018年6月10日
Teacher-Student Training for Robust Tacotron-based TTS
VIP会员
相关VIP内容
专知会员服务
15+阅读 · 2021年5月13日
相关资讯
基于BERT的ASR纠错
深度学习自然语言处理
8+阅读 · 2020年7月16日
FastSpeech语音合成系统技术升级,微软联合浙大提出FastSpeech2
微软研究院AI头条
4+阅读 · 2020年6月23日
【ACL2020放榜!】事件抽取、关系抽取、NER、Few-Shot 相关论文整理
深度学习自然语言处理
18+阅读 · 2020年5月22日
【论文笔记】通俗理解少样本文本分类 (Few-Shot Text Classification) (1)
深度学习自然语言处理
7+阅读 · 2020年4月8日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
近期声学领域前沿论文(No. 4)
深度学习每日摘要
7+阅读 · 2019年5月1日
语音顶级会议Interspeech2018接受论文列表!
专知
6+阅读 · 2018年6月10日
Top
微信扫码咨询专知VIP会员