摘要:

文本到语音(Text to speech, TTS),即语音合成,是语音、语言和机器学习领域的一个热点研究课题,在业界有着广泛的应用。近年来,随着深度学习和人工智能的发展,基于神经网络的TTS大大提高了合成语音的质量。在本文中,我们对神经TTS进行了一个全面的综述,旨在提供一个良好的研究现状和未来的趋势。我们重点讨论了神经TTS的关键组成部分,包括文本分析、声学模型和声码器,以及一些高级主题,包括快速TTS、低资源TTS、鲁棒TTS、表达性TTS和自适应TTS等。我们进一步总结了与TTS相关的资源(如数据集、开源实现),并讨论了未来的研究方向。这项综述可以服务于从事TTS研究的学术研究者和行业从业者。

引言

文本到语音(Text to speech, TTS),又称语音合成(speech synthesis),旨在从文本中合成出可理解、自然的语音[340],在人类交际[1]中有着广泛的应用,一直是人工智能、自然语言和语音处理领域的研究课题[290,222,144]。开发一个TTS系统需要关于语言和人类语音产生的知识,涉及多个学科,包括语言学[61]、声学[166]、数字信号处理[314]和机器学习[25,143]。

随着深度学习的发展[179,86],基于神经网络的TTS蓬勃发展,针对神经TTS不同方面的大量研究工作应运而生[419,248,376,297,147,264,188,284]。因此,近年来合成语音的质量有了很大的提高。了解目前的研究现状,找出尚未解决的研究问题,对于从事TTS工作的人是非常有帮助的。虽然有多个调查论文统计参数语音合成(418、351、415)和神经TTS(325, 220, 300, 242, 115, 254, 236],全面调查神经TTS的基础知识和最新发展仍然是必要的因为这一领域的主题是多样的和迅速发展。本文对神经系统TTS进行了深入而全面的研究。在接下来的章节中,我们首先简要回顾了TTS技术的发展历史,然后介绍了神经TTS的一些基本知识,最后概述了本研究的概况。

早在12世纪[382],人们就尝试建造机器来合成人类语言。在18世纪下半叶,匈牙利科学家Wolfgang von Kempelen用一系列的风箱、弹簧、风笛和共振箱制造出一些简单的单词和句子[70],制造出了一个会说话的机器。第一个建立在计算机上的语音合成系统出现在20世纪下半叶[382]。早期基于计算机的语音合成方法包括发音合成[52,294]、共振峰合成[293,5,167,168]和串联合成[247,235,291,124,26]。随后,随着统计机器学习的发展,统计参数语音合成(statistical parametric speech synthesis, SPSS)被提出[409,350,418,351],用于预测语音合成的频谱、基频、持续时间等参数。从2010年开始,基于神经网络的语音合成[419,278,76,417,369,187,248,376]逐渐成为语音合成的主导方法,取得了更好的语音质量。

现代的TTS系统由三个基本组件组成:文本分析模块、声学模型和声码器。如图1所示,文本分析模块将文本序列转化为语言特征,声学模型由语言特征生成声学特征,声码器根据声学特征合成波形。我们在第二节中对神经TTS的三个组成部分进行了综述。具体来说,我们首先在第2.1节介绍了神经TTS的基本组成部分的主要分类,然后分别在第2.2节、2.3节和2.4节介绍了文本分析、声学模型和声码器的工作。我们在第2.5节中进一步介绍了对完全端到端TTS的研究。虽然我们主要从神经TTS中关键成分的分类来回顾研究工作,但我们也在2.6节中描述了其他几个分类,包括序列生成的方式(自回归或非自回归)、不同的生成模型和不同的网络结构。此外,我们还在2.6节中说明了一些具有代表性的TTS工作的时间演化。

我们主要从TTS的基本组件(文本分析、声学模型、声码器和完全端到端模型)的角度对神经TTS的工作进行分类,如图3a所示。我们发现这种分类与文本到波形的数据转换流程是一致的:1)文本分析将字符转换为音位或语言特征;2)声学模型从语言特征或字符/音素生成声学特征;3)声码器通过语言特征或声学特征生成波形;4)全端到端模型直接将字符/音素转换成波形。

成为VIP会员查看完整内容
29

相关内容

语音合成(Speech Synthesis),也称为文语转换(Text-to-Speech, TTS,它是将任意的输入文本转换成自然流畅的语音输出。语音合成涉及到人工智能、心理学、声学、语言学、数字信号处理、计算机科学等多个学科技术,是信息处理领域中的一项前沿技术。 随着计算机技术的不断提高,语音合成技术从早期的共振峰合成,逐步发展为波形拼接合成和统计参数语音合成,再发展到混合语音合成;合成语音的质量、自然度已经得到明显提高,基本能满足一些特定场合的应用需求。目前,语音合成技术在银行、医院等的信息播报系统、汽车导航系统、自动应答呼叫中心等都有广泛应用,取得了巨大的经济效益。 另外,随着智能手机、MP3、PDA 等与我们生活密切相关的媒介的大量涌现,语音合成的应用也在逐渐向娱乐、语音教学、康复治疗等领域深入。可以说语音合成正在影响着人们生活的方方面面。
计算机视觉对抗攻击综述论文,35页pdf456篇文献
专知会员服务
63+阅读 · 2021年9月4日
专知会员服务
89+阅读 · 2021年7月9日
最新「图机器学习药物发现」综述论文,22页pdf245篇文献
最新「注意力机制」大综述论文,66页pdf569篇文献
专知会员服务
205+阅读 · 2021年4月2日
2020->2021必看的十篇「深度学习领域综述」论文
专知会员服务
135+阅读 · 2021年1月1日
专知会员服务
79+阅读 · 2020年10月2日
最新《深度学习人脸识别》综述论文,
专知会员服务
67+阅读 · 2020年8月10日
零样本图像识别综述论文
专知会员服务
57+阅读 · 2020年4月4日
稀缺资源语言神经网络机器翻译研究综述
专知
5+阅读 · 2020年12月3日
零样本图像识别综述论文
专知
21+阅读 · 2020年4月4日
关于人脸识别的最全研究!
人工智能学家
7+阅读 · 2019年9月20日
2019深度学习语音合成指南
AI科技评论
6+阅读 · 2019年9月2日
Image Captioning 36页最新综述, 161篇参考文献
专知
90+阅读 · 2018年10月23日
如何做文献综述:克雷斯威尔五步文献综述法
清华大学研究生教育
21+阅读 · 2017年7月10日
Arxiv
0+阅读 · 2021年9月3日
A Survey on Automated Fact-Checking
Arxiv
8+阅读 · 2021年8月26日
Arxiv
14+阅读 · 2021年6月30日
Arxiv
8+阅读 · 2020年10月7日
Arxiv
4+阅读 · 2019年4月17日
Mobile big data analysis with machine learning
Arxiv
6+阅读 · 2018年8月2日
Arxiv
11+阅读 · 2018年7月31日
VIP会员
相关VIP内容
计算机视觉对抗攻击综述论文,35页pdf456篇文献
专知会员服务
63+阅读 · 2021年9月4日
专知会员服务
89+阅读 · 2021年7月9日
最新「图机器学习药物发现」综述论文,22页pdf245篇文献
最新「注意力机制」大综述论文,66页pdf569篇文献
专知会员服务
205+阅读 · 2021年4月2日
2020->2021必看的十篇「深度学习领域综述」论文
专知会员服务
135+阅读 · 2021年1月1日
专知会员服务
79+阅读 · 2020年10月2日
最新《深度学习人脸识别》综述论文,
专知会员服务
67+阅读 · 2020年8月10日
零样本图像识别综述论文
专知会员服务
57+阅读 · 2020年4月4日
相关资讯
稀缺资源语言神经网络机器翻译研究综述
专知
5+阅读 · 2020年12月3日
零样本图像识别综述论文
专知
21+阅读 · 2020年4月4日
关于人脸识别的最全研究!
人工智能学家
7+阅读 · 2019年9月20日
2019深度学习语音合成指南
AI科技评论
6+阅读 · 2019年9月2日
Image Captioning 36页最新综述, 161篇参考文献
专知
90+阅读 · 2018年10月23日
如何做文献综述:克雷斯威尔五步文献综述法
清华大学研究生教育
21+阅读 · 2017年7月10日
相关论文
Arxiv
0+阅读 · 2021年9月3日
A Survey on Automated Fact-Checking
Arxiv
8+阅读 · 2021年8月26日
Arxiv
14+阅读 · 2021年6月30日
Arxiv
8+阅读 · 2020年10月7日
Arxiv
4+阅读 · 2019年4月17日
Mobile big data analysis with machine learning
Arxiv
6+阅读 · 2018年8月2日
Arxiv
11+阅读 · 2018年7月31日
微信扫码咨询专知VIP会员