Attention-based end-to-end text-to-speech synthesis (TTS) is superior to conventional statistical methods in many ways. Transformer-based TTS is one of such successful implementations. While Transformer TTS models the speech frame sequence well with a self-attention mechanism, it does not associate input text with output utterances from a syntactic point of view at sentence level. We propose a novel neural TTS model, denoted as GraphSpeech, that is formulated under graph neural network framework. GraphSpeech encodes explicitly the syntactic relation of input lexical tokens in a sentence, and incorporates such information to derive syntactically motivated character embeddings for TTS attention mechanism. Experiments show that GraphSpeech consistently outperforms the Transformer TTS baseline in terms of spectrum and prosody rendering of utterances.


翻译:基于关注端到端文本到语音合成(TTS)在许多方面优于常规统计方法。基于变换器的 TTS 是成功执行的其中之一。 虽然变换器 TTS 将语音框架序列与自我注意机制进行模型化, 但是它并不将输入文本与句级综合观点的输出音量联系起来。 我们提议了一个新的神经TS 模型, 称为GreaphSpeech, 在图形神经网络框架下制作。 图形Speech 编码明确了输入词汇符号在句子中的合成关系, 并结合了这种信息为 TTS 注意机制生成具有同步动机的字符嵌入。 实验显示, 图形Speach 在频谱和预演化表达方面始终高于变器 TTS 基线 。

0
下载
关闭预览

相关内容

语音合成(Speech Synthesis),也称为文语转换(Text-to-Speech, TTS,它是将任意的输入文本转换成自然流畅的语音输出。语音合成涉及到人工智能、心理学、声学、语言学、数字信号处理、计算机科学等多个学科技术,是信息处理领域中的一项前沿技术。 随着计算机技术的不断提高,语音合成技术从早期的共振峰合成,逐步发展为波形拼接合成和统计参数语音合成,再发展到混合语音合成;合成语音的质量、自然度已经得到明显提高,基本能满足一些特定场合的应用需求。目前,语音合成技术在银行、医院等的信息播报系统、汽车导航系统、自动应答呼叫中心等都有广泛应用,取得了巨大的经济效益。 另外,随着智能手机、MP3、PDA 等与我们生活密切相关的媒介的大量涌现,语音合成的应用也在逐渐向娱乐、语音教学、康复治疗等领域深入。可以说语音合成正在影响着人们生活的方方面面。
一份简单《图神经网络》教程,28页ppt
专知会员服务
125+阅读 · 2020年8月2日
专知会员服务
119+阅读 · 2020年7月22日
【ICLR 2019】双曲注意力网络,Hyperbolic  Attention Network
专知会员服务
83+阅读 · 2020年6月21日
【资源】语音增强资源集锦
专知
8+阅读 · 2020年7月4日
图神经网络(Graph Neural Networks,GNN)综述
极市平台
104+阅读 · 2019年11月27日
Graph Neural Networks 综述
计算机视觉life
30+阅读 · 2019年8月13日
Graph Neural Network(GNN)最全资源整理分享
深度学习与NLP
339+阅读 · 2019年7月9日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
《pyramid Attention Network for Semantic Segmentation》
统计学习与视觉计算组
44+阅读 · 2018年8月30日
【推荐】自然语言处理(NLP)指南
机器学习研究会
35+阅读 · 2017年11月17日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
【推荐】RNN/LSTM时序预测
机器学习研究会
25+阅读 · 2017年9月8日
Arxiv
15+阅读 · 2020年2月5日
Graph Transformer for Graph-to-Sequence Learning
Arxiv
4+阅读 · 2019年11月30日
Self-Attention Graph Pooling
Arxiv
13+阅读 · 2019年6月13日
Neural Speech Synthesis with Transformer Network
Arxiv
5+阅读 · 2019年1月30日
Arxiv
10+阅读 · 2018年2月4日
VIP会员
相关VIP内容
一份简单《图神经网络》教程,28页ppt
专知会员服务
125+阅读 · 2020年8月2日
专知会员服务
119+阅读 · 2020年7月22日
【ICLR 2019】双曲注意力网络,Hyperbolic  Attention Network
专知会员服务
83+阅读 · 2020年6月21日
相关资讯
【资源】语音增强资源集锦
专知
8+阅读 · 2020年7月4日
图神经网络(Graph Neural Networks,GNN)综述
极市平台
104+阅读 · 2019年11月27日
Graph Neural Networks 综述
计算机视觉life
30+阅读 · 2019年8月13日
Graph Neural Network(GNN)最全资源整理分享
深度学习与NLP
339+阅读 · 2019年7月9日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
《pyramid Attention Network for Semantic Segmentation》
统计学习与视觉计算组
44+阅读 · 2018年8月30日
【推荐】自然语言处理(NLP)指南
机器学习研究会
35+阅读 · 2017年11月17日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
【推荐】RNN/LSTM时序预测
机器学习研究会
25+阅读 · 2017年9月8日
相关论文
Arxiv
15+阅读 · 2020年2月5日
Graph Transformer for Graph-to-Sequence Learning
Arxiv
4+阅读 · 2019年11月30日
Self-Attention Graph Pooling
Arxiv
13+阅读 · 2019年6月13日
Neural Speech Synthesis with Transformer Network
Arxiv
5+阅读 · 2019年1月30日
Arxiv
10+阅读 · 2018年2月4日
Top
微信扫码咨询专知VIP会员