This paper introduces PnG BERT, a new encoder model for neural TTS. This model is augmented from the original BERT model, by taking both phoneme and grapheme representations of text as input, as well as the word-level alignment between them. It can be pre-trained on a large text corpus in a self-supervised manner, and fine-tuned in a TTS task. Experimental results show that a neural TTS model using a pre-trained PnG BERT as its encoder yields more natural prosody and more accurate pronunciation than a baseline model using only phoneme input with no pre-training. Subjective side-by-side preference evaluations show that raters have no statistically significant preference between the speech synthesized using a PnG BERT and ground truth recordings from professional speakers.


翻译:本文介绍了神经 TTS 的新编码模型PnG BERT。 这个模型从原始的 BERT 模型得到扩展, 其方法是将文字的电话和图形化表述作为输入, 以及它们之间的字级对齐。 它可以自我监督的方式在大量文本材料上预先培训, 并在 TTS 任务中进行微调 。 实验结果表明, 使用预先训练过的 PnG BERT 模型作为编码器的神经 TTS 模型, 比基线模型更自然, 更准确的发音, 仅使用没有训练前的电话机输入。 主观的单方优惠评价显示, 使用 PnG BERT 合成的演讲与专业演讲人现场的真相记录相比, 在统计上没有显著的偏好。

0
下载
关闭预览

相关内容

最新BERT相关论文清单,BERT-related Papers
专知会员服务
53+阅读 · 2019年9月29日
意识是一种数学模式
CreateAMind
3+阅读 · 2019年6月24日
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
Github项目推荐 | awesome-bert:BERT相关资源大列表
AI研习社
27+阅读 · 2019年2月26日
【推荐】RNN/LSTM时序预测
机器学习研究会
25+阅读 · 2017年9月8日
Arxiv
0+阅读 · 2021年5月24日
Arxiv
6+阅读 · 2020年4月14日
Arxiv
6+阅读 · 2019年3月19日
Arxiv
12+阅读 · 2019年2月28日
Conditional BERT Contextual Augmentation
Arxiv
8+阅读 · 2018年12月17日
Arxiv
3+阅读 · 2018年11月13日
VIP会员
相关VIP内容
最新BERT相关论文清单,BERT-related Papers
专知会员服务
53+阅读 · 2019年9月29日
Top
微信扫码咨询专知VIP会员