This paper introduces Parallel Tacotron 2, a non-autoregressive neural text-to-speech model with a fully differentiable duration model which does not require supervised duration signals. The duration model is based on a novel attention mechanism and an iterative reconstruction loss based on Soft Dynamic Time Warping, this model can learn token-frame alignments as well as token durations automatically. Experimental results show that Parallel Tacotron 2 outperforms baselines in subjective naturalness in several diverse multi speaker evaluations. Its duration control capability is also demonstrated.


翻译:本文件介绍平行塔可罗2号,这是一个非航空神经文本到语音模型,具有完全不同的持续时间模型,不需要有监督的持续时间信号。持续时间模型基于一个新的关注机制和基于软动态时间扭曲的迭代重建损失,该模型可以自动学习代号-框架调整和象征性持续时间。实验结果表明,平行塔可罗2号在多个多发言者评价中主观自然性优于基线。其持续时间控制能力也得到了展示。

0
下载
关闭预览

相关内容

ACM/IEEE第23届模型驱动工程语言和系统国际会议,是模型驱动软件和系统工程的首要会议系列,由ACM-SIGSOFT和IEEE-TCSE支持组织。自1998年以来,模型涵盖了建模的各个方面,从语言和方法到工具和应用程序。模特的参加者来自不同的背景,包括研究人员、学者、工程师和工业专业人士。MODELS 2019是一个论坛,参与者可以围绕建模和模型驱动的软件和系统交流前沿研究成果和创新实践经验。今年的版本将为建模社区提供进一步推进建模基础的机会,并在网络物理系统、嵌入式系统、社会技术系统、云计算、大数据、机器学习、安全、开源等新兴领域提出建模的创新应用以及可持续性。 官网链接:http://www.modelsconference.org/
专知会员服务
21+阅读 · 2021年9月23日
专知会员服务
38+阅读 · 2021年6月11日
【ACL2020】端到端语音翻译的课程预训练
专知会员服务
5+阅读 · 2020年7月2日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
Faster R-CNN
数据挖掘入门与实战
4+阅读 · 2018年4月20日
漫谈语音合成之Char2Wav模型
深度学习每日摘要
8+阅读 · 2017年12月31日
一种基于Sequence-to-Sequence的高质量对话生成方法
科技创新与创业
9+阅读 · 2017年11月13日
从2017年顶会论文看Attention Model
黑龙江大学自然语言处理实验室
5+阅读 · 2017年11月1日
Arxiv
1+阅读 · 2021年10月15日
Teacher-Student Training for Robust Tacotron-based TTS
Neural Speech Synthesis with Transformer Network
Arxiv
5+阅读 · 2019年1月30日
Arxiv
3+阅读 · 2018年11月13日
VIP会员
相关资讯
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
Faster R-CNN
数据挖掘入门与实战
4+阅读 · 2018年4月20日
漫谈语音合成之Char2Wav模型
深度学习每日摘要
8+阅读 · 2017年12月31日
一种基于Sequence-to-Sequence的高质量对话生成方法
科技创新与创业
9+阅读 · 2017年11月13日
从2017年顶会论文看Attention Model
黑龙江大学自然语言处理实验室
5+阅读 · 2017年11月1日
Top
微信扫码咨询专知VIP会员