Previous works on neural text-to-speech (TTS) have been tackled on limited speed in training and inference time, robustness for difficult synthesis conditions, expressiveness, and controllability. Although several approaches resolve some limitations, none of them has resolved all weaknesses at once. In this paper, we propose STYLER, an expressive and controllable text-to-speech model with robust speech synthesis and high speed. Excluding autoregressive decoding and introducing a novel audio-text aligning method called Mel Calibrator leads speech synthesis more robust on long, unseen data. Disentangled style factor modeling under supervision enlarges the controllability of synthesizing speech with fruitful expressivity. Moreover, our novel noise modeling pipeline using domain adversarial training and Residual Decoding enables noise-robust style transfer, decomposing the noise without any additional label. Our extensive and various experiments demonstrate STYLER's effectiveness in the aspects of speed, robustness, expressiveness, and controllability by comparison with existing neural TTS models and ablation studies. Synthesis samples of our model and experiment results are provided via our demo page.


翻译:先前关于神经文本到声音(TTS)的著作是在培训和推断时间的有限速度、困难合成条件的稳健性、直观性和可控性的基础上处理的。虽然有几种方法解决了某些限制,但没有一种办法同时解决所有弱点。在本文中,我们提出STYLER,这是一个有强力语音合成和高速度的可显示和控制的文本到声音模型。不包括自动递减解解码,并引入一种叫作Mel Calbrator的新型音频文本对齐方法,使语音合成对长期的、不可见的数据更加有力。在监管下分解的风格要素模型扩大了将语言与富有成果的表达性相结合的可控性。此外,我们使用地区性对称培训和余调解调模式的新型噪声建模管道使得噪音-布罗氏风格的传输,在没有任何额外标签的情况下将噪音分解。我们的广泛和多种实验都展示了STYLER在速度、坚固性、直观性和可控性等方面的有效性。通过比较现有的神经TS模型和断层研究,我们模型和实验结果的样本通过演示提供了。

0
下载
关闭预览

相关内容

专知会员服务
56+阅读 · 2021年5月10日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
79+阅读 · 2020年7月26日
ACL2020接受论文列表公布,571篇长文208篇短文
专知会员服务
67+阅读 · 2020年5月19日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
154+阅读 · 2019年10月12日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
104+阅读 · 2019年10月9日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Facebook PyText 在 Github 上开源了
AINLP
7+阅读 · 2018年12月14日
【NIPS2018】接收论文列表
专知
5+阅读 · 2018年9月10日
语音顶级会议Interspeech2018接受论文列表!
专知
6+阅读 · 2018年6月10日
ACL 2018 计算语言学协会接受论文列表
专知
3+阅读 · 2018年4月27日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Adversarial Variational Bayes: Unifying VAE and GAN 代码
CreateAMind
7+阅读 · 2017年10月4日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
Neural Speech Synthesis with Transformer Network
Arxiv
5+阅读 · 2019年1月30日
Arxiv
8+阅读 · 2018年11月27日
VIP会员
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Facebook PyText 在 Github 上开源了
AINLP
7+阅读 · 2018年12月14日
【NIPS2018】接收论文列表
专知
5+阅读 · 2018年9月10日
语音顶级会议Interspeech2018接受论文列表!
专知
6+阅读 · 2018年6月10日
ACL 2018 计算语言学协会接受论文列表
专知
3+阅读 · 2018年4月27日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Adversarial Variational Bayes: Unifying VAE and GAN 代码
CreateAMind
7+阅读 · 2017年10月4日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
Top
微信扫码咨询专知VIP会员