系统调研450篇文献,微软亚洲研究院推出超详尽语音合成综述

2021 年 8 月 10 日 微软研究院AI头条

(本文阅读时间:10 分钟)

编者按:语音合成一直以来是语言、语音、深度学习及人工智能等领域的热门研究方向,受到了学术界和工业界广泛的关注。尽管语音合成技术的研究已有几十年的历史,基于神经网络的语音合成技术也有近十年历史,且已产出了大量的优质研究成果,但针对神经语音合成不同研究方向的整合型综述论文却十分匮乏。近日,微软亚洲研究院的研究员们通过调研了450余篇语音合成领域的文献,发表了迄今为止语音合成领域几乎最详尽的综述论文 “A Survey on Neural Speech Synthesis”。在文中,研究员们还整理收集了语音合成领域的相关资源如数据集、开源实现、演讲教程等,同时也对语音合成领域未来的研究方向进行了探讨和展望。希望本文能对相关工作的研究人员提供具有价值的参考。


文本到语音合成旨在从文本合成高可懂度和自然度的语音,很久以来一直是语言、语音、深度学习、人工智能等领域热门的研究方向,受到了学术界和工业界的广泛关注。近年来,随着深度学习的发展,基于神经网络的语音合成极大地提高了合成语音的质量。尽管语音合成技术的研究已有几十年的历史,基于神经网络的语音合成技术也有近十年的发展,领域内产出了大量的优质研究成果,但针对不同研究方向的整合型综述论文却十分匮乏。


因此,微软亚洲研究院的研究员们发表了一篇综述论文 “A Survey on Neural Speech Synthesis”,全面梳理、总结了神经语音合成领域的发展现状以及未来发展方向。该文章可谓是迄今为止语音合成领域几乎最为详尽的综述论文。研究员们共调研了450多篇文献,分别从语音合成的核心模块(文本分析、声学模型、声码器)以及进阶主题(快速语音合成、低资源语音合成、鲁棒语音合成、富有表现力的语音合成、可适配语音合成)两大方面对该领域的工作进行了梳理总结。同时,研究员们还收集了语音合成领域的相关资源(数据集、开源实现、演讲教程等)并且讨论了未来研究方向。



论文链接:https://arxiv.org/pdf/2106.15561.pdf


论文从 两个方面 对神经语音合成领域的发展现状进行了梳理总结(逻辑框架如图1所示):
  • 核心模块:分别从文本分析(textanalysis)、声学模型(acoustic model)、声码器(vocoder)、完全端到端模型(fully end-to-end model)等方面进行介绍。

  • 进阶主题:分别从快速语音合成(fast TTS)、低资源语音合成(low-resourceTTS)、鲁棒语音合成(robust TTS)、富有表现力的语音合成(expressive TTS)、可适配语音合成(adaptive TTS)等方面进行介绍。


图1:论文逻辑框架


TTS 核心模块


研究员们根据神经语音合成系统的核心模块提出了一个分类体系。每个模块分别对应特定的数据转换流程

1)文本分析模块将文本字符转换成音素或语言学特征;

2)声学模型将语言学特征、音素或字符序列转换成声学特征;

3)声码器将语言学特征或声学特征转换成语音波形;

4)完全端到端模型将字符或音素序列转换成语音波形。



图2:(a)TTS核心框架,(b)数据转换流程


文本分析


文章总结了文本分析模块几个常见的任务,包括文本归一化、分词、词性标注、韵律预测、字形转音形以及多音字消歧等。


表1:文本分析模块中的常见任务


声学模型


在声学模型部分,文章首先简要介绍了在统计参数合成里用到的基于神经网络的声学模型,然后重点介绍了端到端模型的神经声学模型,包括基于 RNN、CNN 和Transformer 的声学模型以及其它基于 Flow、GAN、VAE、Diffusion 的声学模型


表2:不同声学模型及其特征


声码器


声码器的发展分为两个阶段,包括传统参数合成里的声码器如 STRAIGHT和 WORLD,以及基于神经网络的声码器。论文重点介绍了基于神经网络的声码器,并把相关工作分为以下几类,包括:

1)自回归声码器(WaveNet,SampleRNN,WaveRNN,LPCNet 等);

2)基于 Flow 的声码器(WaveGlow,FloWaveNet,WaveFlow,Par. WaveNet 等);

3)基于 GAN 的声码器(WaveGAN,GAN-TTS,MelGAN,Par. WaveGAN,HiFi-GAN,VocGAN,GED,Fre-GAN 等);

4)基于 VAE 的声码器(WaveVAE等);

5)基于 Diffusion 的声码器(DiffWave,WaveGrad,PriorGrad 等)。


表3:不同声码器及其特征


本文还针对基于 Flow 和 GAN 的声码器做了详细分析,如表4和表5所示。


表4:基于Flow的声码器


表5:基于GAN的声码器


最后研究员们还统一分析、比较了基于不同生成模型的声码器的优缺点,如表6所示。


表6:基于不同生成模型的声码器分析结果


完全端到端模型


端到端模型的发展经历了以下几个阶段:

阶段0:在统计参数合成方法中,使用文本分析、声学模型和声码器三个模块级联;

阶段1:在统计参数合成方法中,将前两个模块合起来形成一个声学模型;

阶段2:直接从语言学特征生成最终的波形,例如 WaveNet;

阶段3:声学模型直接从字符或音素生成声学模型,然后利用神经声码器生成波形;

阶段4:完全端到端的神经网络模型。


图3:端到端模型发展过程


其它分类体系


除了上述按照 TTS 模型的核心模块进行分类的方法,论文中还有从其它角度对 TTS 模型进行分类的方法,如图4所示,包括:1)自回归 vs 非自回归;2)生成模型的类型;3)网络结构的类型。


图4:从其它角度对TTS模型进行分类


同时,本文还绘制了相关 TTS 工作随着时间变化的关系图,方便读者更直观地理解各个 TTS 模型及其在 TTS 发展中的位置。


图5:相关 TTS 工作随时间演化的关系图


TTS 进阶课题


研究员们还针对 TTS 面临的各种挑战,介绍了相关的进阶课题,包括快速语音合成(fast TTS)、低资源语音合成(low-resource TTS)、鲁棒语音合成(robust TTS)、富有表现力的语音合成(expressive TTS)、可适配语音合成(adaptive TTS)等。


图6:TTS 相关的进阶课题


快速语音合成


为了实现快速语音合成,常用的技术一般有以下几种:1)并行生成;2)轻量级模型设计;3)利用领域知识进行加速。其中,并行生成技术的分类以及相关工作可见表7。


表7:并行生成技术的分类以及相关工作


低资源语音合成


低资源语音合成相关技术以及相关工作,如表8所示。


表8:低资源语音合成相关技术以及相关工作


鲁棒语音合成


鲁棒语音合成相关技术分类,可见表9。


表9:鲁棒语音合成相关技术分类


富有表现力的语音合成


富有表现力的语音合成的关键在于对可变信息的建模,表10从不同角度总结了可变信息建模的相关工作。


表10:富有表现力的语音合成


可适配语音合成


可适配语音合成相关的技术分类见表11。


表11:可适配语音合成


最后,研究员们还收集了 TTS 领域相关的资源,包括开源代码、TTS 教程、公开比赛以及数据集等。同时,文章也指出了 TTS 领域的潜在研究挑战,并且根据 TTS 要实现的最终远景和目标,将其分为两个大方向:高质量的语音合成以及高效率的语音合成。


在高质量的语音合成方面,包括以下研究课题:更加强大的生成模型,更好的面向文本和语音的表征学习,鲁棒的语音合成,富有表现力/可控/风格可迁移的语音合成,更符合人类表达风格的语音合成。在更高效的语音合成方面,包括在数据、模型参数、计算等方面设计更高效、利用资源更少的语音合成系统。


研究员们希望这篇综述论文能对语音合成领域的相关工作人员提供有价值的参考,也希望这个领域的同行能提供意见和建议,一起共同维护、更新这篇综述论文。欢迎将反馈提交到 GitHub 页面 https://github.com/tts-tutorial/survey 或者发邮件至 xuta@microsoft.com。


相关链接:

https://www.microsoft.com/en-us/research/project/text-to-speech/

https://speechresearch.github.io/

https://www.microsoft.com/en-us/research/people/xuta/





8月12日(本周四),我们将邀请微软亚洲研究院主管研究员谭旭,为大家深度解读论文,届时欢迎大家扫码观看。









你也许还想看





登录查看更多
1

相关内容

语音合成(Speech Synthesis),也称为文语转换(Text-to-Speech, TTS,它是将任意的输入文本转换成自然流畅的语音输出。语音合成涉及到人工智能、心理学、声学、语言学、数字信号处理、计算机科学等多个学科技术,是信息处理领域中的一项前沿技术。 随着计算机技术的不断提高,语音合成技术从早期的共振峰合成,逐步发展为波形拼接合成和统计参数语音合成,再发展到混合语音合成;合成语音的质量、自然度已经得到明显提高,基本能满足一些特定场合的应用需求。目前,语音合成技术在银行、医院等的信息播报系统、汽车导航系统、自动应答呼叫中心等都有广泛应用,取得了巨大的经济效益。 另外,随着智能手机、MP3、PDA 等与我们生活密切相关的媒介的大量涌现,语音合成的应用也在逐渐向娱乐、语音教学、康复治疗等领域深入。可以说语音合成正在影响着人们生活的方方面面。
「知识蒸馏」最新2022研究综述
专知会员服务
120+阅读 · 2022年3月20日
微软《神经语音合成》综述论文,63页pdf530篇文献
专知会员服务
29+阅读 · 2021年7月3日
专知会员服务
69+阅读 · 2021年5月21日
注意力机制综述
专知会员服务
80+阅读 · 2021年1月26日
稀缺资源语言神经网络机器翻译研究综述
专知会员服务
26+阅读 · 2020年12月2日
专知会员服务
153+阅读 · 2020年4月21日
机器翻译深度学习最新综述
专知会员服务
96+阅读 · 2020年2月20日
自动机器学习:最新进展综述
专知会员服务
116+阅读 · 2019年10月13日
深度学习自然语言处理综述,266篇参考文献
专知会员服务
225+阅读 · 2019年10月12日
「知识蒸馏」最新2022研究综述
专知
3+阅读 · 2022年3月20日
语音合成:模拟最像人类声音的系统
PaperWeekly
2+阅读 · 2021年11月30日
面向任务型的对话系统研究进展
专知
0+阅读 · 2021年11月17日
应对个性化定制语音合成挑战,微软推出AdaSpeech系列研究
微软研究院AI头条
1+阅读 · 2021年9月3日
多模态视觉语言表征学习研究综述
专知
25+阅读 · 2020年12月3日
【中科院】命名实体识别技术综述
专知
16+阅读 · 2020年4月21日
【综述】生成式对抗网络GAN最新进展综述
专知
57+阅读 · 2019年6月5日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2022年4月20日
Arxiv
0+阅读 · 2022年4月19日
Arxiv
14+阅读 · 2021年6月30日
Arxiv
19+阅读 · 2021年1月14日
VIP会员
相关VIP内容
「知识蒸馏」最新2022研究综述
专知会员服务
120+阅读 · 2022年3月20日
微软《神经语音合成》综述论文,63页pdf530篇文献
专知会员服务
29+阅读 · 2021年7月3日
专知会员服务
69+阅读 · 2021年5月21日
注意力机制综述
专知会员服务
80+阅读 · 2021年1月26日
稀缺资源语言神经网络机器翻译研究综述
专知会员服务
26+阅读 · 2020年12月2日
专知会员服务
153+阅读 · 2020年4月21日
机器翻译深度学习最新综述
专知会员服务
96+阅读 · 2020年2月20日
自动机器学习:最新进展综述
专知会员服务
116+阅读 · 2019年10月13日
深度学习自然语言处理综述,266篇参考文献
专知会员服务
225+阅读 · 2019年10月12日
相关资讯
「知识蒸馏」最新2022研究综述
专知
3+阅读 · 2022年3月20日
语音合成:模拟最像人类声音的系统
PaperWeekly
2+阅读 · 2021年11月30日
面向任务型的对话系统研究进展
专知
0+阅读 · 2021年11月17日
应对个性化定制语音合成挑战,微软推出AdaSpeech系列研究
微软研究院AI头条
1+阅读 · 2021年9月3日
多模态视觉语言表征学习研究综述
专知
25+阅读 · 2020年12月3日
【中科院】命名实体识别技术综述
专知
16+阅读 · 2020年4月21日
【综述】生成式对抗网络GAN最新进展综述
专知
57+阅读 · 2019年6月5日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员