Vocoders received renewed attention as main components in statistical parametric text-to-speech (TTS) synthesis and speech transformation systems. Even though there are vocoding techniques give almost accepted synthesized speech, their high computational complexity and irregular structures are still considered challenging concerns, which yield a variety of voice quality degradation. Therefore, this paper presents new techniques in a continuous vocoder, that is all features are continuous and presents a flexible speech synthesis system. First, a new continuous noise masking based on the phase distortion is proposed to eliminate the perceptual impact of the residual noise and letting an accurate reconstruction of noise characteristics. Second, we addressed the need of neural sequence to sequence modeling approach for the task of TTS based on recurrent networks. Bidirectional long short-term memory (LSTM) and gated recurrent unit (GRU) are studied and applied to model continuous parameters for more natural-sounding like a human. The evaluation results proved that the proposed model achieves the state-of-the-art performance of the speech synthesis compared with the other traditional methods.


翻译:作为统计参数文本到语音合成和语音转换系统的主要组成部分,Vocoders重新受到关注,尽管有电码技术提供了几乎为人接受的合成语音,但其高计算复杂性和不规则结构仍被视为具有挑战性的关切问题,造成各种声音质量的退化,因此,本文件以连续的vocoder展示了新技术,即所有特征都是连续的,并提供了一个灵活的语音合成系统。首先,提议以阶段扭曲为基础进行新的连续的噪音掩蔽,以消除残余噪音的感知影响,并允许准确重建噪音特征。第二,我们讨论了在经常性网络基础上为TTS的任务进行排序的神经序列的必要性。研究了双向短期内存(LSTM)和门状经常性单元(GRU),并用于模拟像人类一样更自然的更自然声音的连续参数。评价结果证明,拟议的模型与其他传统方法相比,实现了语音合成的最先进的表现。

0
下载
关闭预览

相关内容

让 iOS 8 和 OS X Yosemite 无缝切换的一个新特性。 > Apple products have always been designed to work together beautifully. But now they may really surprise you. With iOS 8 and OS X Yosemite, you’ll be able to do more wonderful things than ever before.

Source: Apple - iOS 8
多标签学习的新趋势(2020 Survey)
专知会员服务
41+阅读 · 2020年12月6日
【干货书】机器学习速查手册,135页pdf
专知会员服务
122+阅读 · 2020年11月20日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
57+阅读 · 2019年10月17日
【资源】语音增强资源集锦
专知
8+阅读 · 2020年7月4日
人工智能 | CCF推荐期刊专刊约稿信息6条
Call4Papers
5+阅读 · 2019年2月18日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
Linguistically Regularized LSTMs for Sentiment Classification
黑龙江大学自然语言处理实验室
8+阅读 · 2018年5月4日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
Simple Recurrent Unit For Sentence Classification
哈工大SCIR
6+阅读 · 2017年11月29日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
SHAQ: Single Headed Attention with Quasi-Recurrence
Arxiv
0+阅读 · 2021年8月18日
Neural Speech Synthesis with Transformer Network
Arxiv
5+阅读 · 2019年1月30日
Arxiv
8+阅读 · 2018年11月27日
Arxiv
3+阅读 · 2018年11月13日
VIP会员
Top
微信扫码咨询专知VIP会员