文本到语音(Text to speech, TTS)是人工智能领域的一个研究热点,已成为业界的一项重要产品服务。近年来,随着深度学习和人工智能的发展,基于神经网络的TTS技术大大提高了合成语音的质量。在本教程中,我们将介绍神经文本到语音,它由四个部分组成。在第一部分,我们将简要概述TTS技术的历史。在第二部分,我们将介绍神经TTS的关键组成部分,包括文本分析,声学模型和声码器。在第三部分中,我们将回顾推动TTS研究前沿和涵盖实用TTS产品的工作,包括端到端TTS、非自回归和轻量级TTS、鲁棒/表达/可控TTS、低资源TTS和自定义语音自适应。在本教程的最后,我们将描述TTS的几个挑战,并讨论未来的研究方向。