微软亚洲研究院 - 维基百科,自由的百科全书

微软亚洲研究院(Microsoft Research Asia)位于北京市海淀区中关村丹棱街5号微软大厦2号楼12-14层,是微软研究院之一,也是微軟在海外最大的研究院及微软在亚洲的第一個研究院,2004年被麻省理工学院《技术评论》称为“世界上最火的计算机实验室”。经过多年的发展,微软亚洲研究院拥有超过230名全职研究员、工程师与超过250名访问学者与实习生。

VIP内容

摘要:

文本到语音(Text to speech, TTS),即语音合成,是语音、语言和机器学习领域的一个热点研究课题,在业界有着广泛的应用。近年来,随着深度学习和人工智能的发展,基于神经网络的TTS大大提高了合成语音的质量。在本文中,我们对神经TTS进行了一个全面的综述,旨在提供一个良好的研究现状和未来的趋势。我们重点讨论了神经TTS的关键组成部分,包括文本分析、声学模型和声码器,以及一些高级主题,包括快速TTS、低资源TTS、鲁棒TTS、表达性TTS和自适应TTS等。我们进一步总结了与TTS相关的资源(如数据集、开源实现),并讨论了未来的研究方向。这项综述可以服务于从事TTS研究的学术研究者和行业从业者。

引言

文本到语音(Text to speech, TTS),又称语音合成(speech synthesis),旨在从文本中合成出可理解、自然的语音[340],在人类交际[1]中有着广泛的应用,一直是人工智能、自然语言和语音处理领域的研究课题[290,222,144]。开发一个TTS系统需要关于语言和人类语音产生的知识,涉及多个学科,包括语言学[61]、声学[166]、数字信号处理[314]和机器学习[25,143]。

随着深度学习的发展[179,86],基于神经网络的TTS蓬勃发展,针对神经TTS不同方面的大量研究工作应运而生[419,248,376,297,147,264,188,284]。因此,近年来合成语音的质量有了很大的提高。了解目前的研究现状,找出尚未解决的研究问题,对于从事TTS工作的人是非常有帮助的。虽然有多个调查论文统计参数语音合成(418、351、415)和神经TTS(325, 220, 300, 242, 115, 254, 236],全面调查神经TTS的基础知识和最新发展仍然是必要的因为这一领域的主题是多样的和迅速发展。本文对神经系统TTS进行了深入而全面的研究。在接下来的章节中,我们首先简要回顾了TTS技术的发展历史,然后介绍了神经TTS的一些基本知识,最后概述了本研究的概况。

早在12世纪[382],人们就尝试建造机器来合成人类语言。在18世纪下半叶,匈牙利科学家Wolfgang von Kempelen用一系列的风箱、弹簧、风笛和共振箱制造出一些简单的单词和句子[70],制造出了一个会说话的机器。第一个建立在计算机上的语音合成系统出现在20世纪下半叶[382]。早期基于计算机的语音合成方法包括发音合成[52,294]、共振峰合成[293,5,167,168]和串联合成[247,235,291,124,26]。随后,随着统计机器学习的发展,统计参数语音合成(statistical parametric speech synthesis, SPSS)被提出[409,350,418,351],用于预测语音合成的频谱、基频、持续时间等参数。从2010年开始,基于神经网络的语音合成[419,278,76,417,369,187,248,376]逐渐成为语音合成的主导方法,取得了更好的语音质量。

现代的TTS系统由三个基本组件组成:文本分析模块、声学模型和声码器。如图1所示,文本分析模块将文本序列转化为语言特征,声学模型由语言特征生成声学特征,声码器根据声学特征合成波形。我们在第二节中对神经TTS的三个组成部分进行了综述。具体来说,我们首先在第2.1节介绍了神经TTS的基本组成部分的主要分类,然后分别在第2.2节、2.3节和2.4节介绍了文本分析、声学模型和声码器的工作。我们在第2.5节中进一步介绍了对完全端到端TTS的研究。虽然我们主要从神经TTS中关键成分的分类来回顾研究工作,但我们也在2.6节中描述了其他几个分类,包括序列生成的方式(自回归或非自回归)、不同的生成模型和不同的网络结构。此外,我们还在2.6节中说明了一些具有代表性的TTS工作的时间演化。

我们主要从TTS的基本组件(文本分析、声学模型、声码器和完全端到端模型)的角度对神经TTS的工作进行分类,如图3a所示。我们发现这种分类与文本到波形的数据转换流程是一致的:1)文本分析将字符转换为音位或语言特征;2)声学模型从语言特征或字符/音素生成声学特征;3)声码器通过语言特征或声学特征生成波形;4)全端到端模型直接将字符/音素转换成波形。

成为VIP会员查看完整内容
0
22

最新论文

The performance of grant-free random access (GF-RA) is limited by the number of accessible random access resources (RRs) due to the absence of collision resolution. Compressive sensing (CS)-based RA schemes scale up the RRs at the expense of increased non-orthogonality among transmitted signals. This paper presents the design of multi-sequence spreading random access (MSRA) which employs multiple spreading sequences to spread the different symbols of a user as opposed to the conventional schemes in which a user employs the same spreading sequence for each symbol. We show that MSRA provides code diversity, enabling the multi-user detection (MUD) to be modeled into a well-conditioned multiple measurement vector (MMV) CS problem. The code diversity is quantified by the decrease in the average Babel mutual coherence among the spreading sequences. Moreover, we present a two-stage active user detection (AUD) scheme for both wideband and narrowband implementation. Our theoretical analysis shows that with MSRA activity misdetection falls exponentially while the size of GF-RA frame is increased. Finally, the simulation results show that about 82% increase in utilization of RRs, i.e., more active users, is supported by MSRA than the conventional schemes while achieving the RA failure rate lower bound set by random access collision.

0
0
下载
预览
Top
微信扫码咨询专知VIP会员