文本到语音(Text to speech, TTS)是人工智能领域的一个研究热点,已成为业界的一项重要产品服务。近年来,随着深度学习和人工智能的发展,基于神经网络的TTS技术大大提高了合成语音的质量。在本教程中,我们将介绍神经文本到语音,它由四个部分组成。在第一部分,我们将简要概述TTS技术的历史。在第二部分,我们将介绍神经TTS的关键组成部分,包括文本分析,声学模型和声码器。在第三部分中,我们将回顾推动TTS研究前沿和涵盖实用TTS产品的工作,包括端到端TTS、非自回归和轻量级TTS、鲁棒/表达/可控TTS、低资源TTS和自定义语音自适应。在本教程的最后,我们将描述TTS的几个挑战,并讨论未来的研究方向。
专知便捷查看
便捷下载,请关注专知公众号(点击上方蓝色专知关注)
后台回复“ANSS” 就可以获取《【微软亚研ICASSP 2022 教程】神经文本语音合成,107页ppt》专知下载链接