语音合成是目前语音学界研究的热点,包括文本到语音(TTS)和语音转换(VC)等关键任务,在业界具有广泛的应用前景。近年来,随着深度学习和人工智能的发展,基于神经网络的语音合成显著提高了合成语音的质量。在本教程中,我们对神经语音合成进行了全面的介绍,包括四个部分:1)语音合成技术的发展历史和神经语音合成的分类;2)语篇转化的主要方法和应用;3)语音转换的关键方法及应用;4)神经语音合成面临的挑战及未来研究方向。
讲者:
谭旭,微软亚洲研究院主管研究员,研究领域包括深度学习、自然语言/语音/音乐、AI内容生成等,在学术会议上发表论文90余篇。研发的机器翻译和语音合成系统获得多项比赛冠军并在学术评测集上达到人类水平,研究工作如预训练语言模型MASS、语音合成系统FastSpeech/NaturalSpeech、AI音乐项目Muzic受到业界广泛关注,多项研究成果应用于微软产品。个人主页:https://tan-xu.github.io/
李宏毅博士分别在2010年和2012年于台湾大学(National Taiwan University, NTU)取得硕士和博士学位;2012年到2013年,他于中央研究院资讯科技创新研究中心担任博士后研究员;2013年到2014年,他是麻省理工学院(MIT)电脑科学和人工智慧实验室(CSAIL)口语系统组的客座科学家。他目前是台湾大学电机工程学系副教授(台湾大学资讯工程学系合聘)。他的研究主轴是深度学习、语音处理及语意理解。