LightBERT for TTS frontend:构建了TTS轻量级的前端模型,能够在线上做快速的inference,也是为了解决在线的低计算资源问题。
二. FastSpeech:Fast,Robust and Controllable Text to Speech1. Motivation首先了解下FastSpeech面临的问题背景。基于神经网络端到端的TTS已经比传统的拼接法或者参数法都显示出更强的特性。主流的模型包括:Emphasis、Tacotron、Deep Voice、Transformer等。这些模型比较类似的还是用的传统的自回归模型来生成声学特征。这些模型面临的主要问题有: