语音合成(TTS)旨在根据给定的文本合成可理解和自然的语音。这是语言,语音和机器学习研究的热门话题,并在工业中有广泛的应用。本书介绍了深度学习时代的基于神经网络的TTS,旨在提供对神经TTS,当前的研究和应用以及未来研究趋势的良好理解。
本书首先介绍了TTS技术的历史和神经TTS的概览,并提供了关于语言和语音处理,神经网络和深度学习以及深度生成模型的初步知识。然后从关键组件(文本分析,声学模型,声码器和端到端模型)和高级话题(富有表现力和可控,稳健,模型高效,和数据高效的TTS)的角度介绍了神经TTS。它还指出了一些未来的研究方向,并收集了一些与TTS相关的资源。
本书是第一本全面且易于理解地介绍神经TTS的书籍,既可服务于从事TTS工作的学术研究者,也可服务于行业从业者。