This paper presents Nana-HDR, a new non-attentive non-autoregressive model with hybrid Transformer-based Dense-fuse encoder and RNN-based decoder for TTS. It mainly consists of three parts: Firstly, a novel Dense-fuse encoder with dense connections between basic Transformer blocks for coarse feature fusion and a multi-head attention layer for fine feature fusion. Secondly, a single-layer non-autoregressive RNN-based decoder. Thirdly, a duration predictor instead of an attention model that connects the above hybrid encoder and decoder. Experiments indicate that Nana-HDR gives full play to the advantages of each component, such as strong text encoding ability of Transformer-based encoder, stateful decoding without being bothered by exposure bias and local information preference, and stable alignment provided by duration predictor. Due to these advantages, Nana-HDR achieves competitive performance in naturalness and robustness on two Mandarin corpora.


翻译:本文展示了Nana-HDR, 这是一种新型的非惯性非惯性非惯性模式,具有基于导变器的多元编码器和基于RNN的TTS解码器,主要由三部分组成:首先,是一个新型的Dense-fuse编码器,在基本变异器区块之间有着密集的连接,用于粗特质融合,以及用于精细融合的多端注意层。第二,一个单层非惯性非惯性RNN的解码器。第三,一个持续时间预测器,而不是连接上述混合编码器和解码器的注意模型。实验表明,Nana-HDR充分利用了每个组成部分的优势,例如基于变异器编码器的强大文本编码能力,没有受到暴露偏差和当地信息偏好的影响,以及期限预测器所提供的稳定调和。由于这些优势, Nana-HDR在自然和稳健性方面在两个曼达林公司取得了竞争性的绩效。

0
下载
关闭预览

相关内容

专知会员服务
28+阅读 · 2021年8月2日
专知会员服务
50+阅读 · 2021年5月19日
最新《Transformers模型》教程,64页ppt
专知会员服务
306+阅读 · 2020年11月26日
神经常微分方程教程,50页ppt,A brief tutorial on Neural ODEs
专知会员服务
71+阅读 · 2020年8月2日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
Transformer中的相对位置编码
AINLP
5+阅读 · 2020年11月28日
深度卷积神经网络中的降采样
极市平台
12+阅读 · 2019年5月24日
神经网络训练tricks
极市平台
6+阅读 · 2019年4月15日
【泡泡一分钟】一种实用且高效的多视图匹配方法
泡泡机器人SLAM
6+阅读 · 2018年11月19日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
Arxiv
6+阅读 · 2020年4月14日
Teacher-Student Training for Robust Tacotron-based TTS
Neural Speech Synthesis with Transformer Network
Arxiv
5+阅读 · 2019年1月30日
Arxiv
3+阅读 · 2018年11月13日
VIP会员
Top
微信扫码咨询专知VIP会员