We propose Guided-TTS, a high-quality text-to-speech (TTS) model that does not require any transcript of target speaker using classifier guidance. Guided-TTS combines an unconditional diffusion probabilistic model with a separately trained phoneme classifier for classifier guidance. Our unconditional diffusion model learns to generate speech without any context from untranscribed speech data. For TTS synthesis, we guide the generative process of the diffusion model with a phoneme classifier trained on a large-scale speech recognition dataset. We present a norm-based scaling method that reduces the pronunciation errors of classifier guidance in Guided-TTS. We show that Guided-TTS achieves a performance comparable to that of the state-of-the-art TTS model, Grad-TTS, without any transcript for LJSpeech. We further demonstrate that Guided-TTS performs well on diverse datasets including a long-form untranscribed dataset.
翻译:我们建议采用导引-TTS(TTS)模式,这是一个不需要使用分类指导的目标演讲者笔录的高质量文本到语音(TTS)模式。 指导-TTS将无条件的传播概率模型与单独训练的分类指导的语音分类器相结合。 我们无条件的传播模型学会在没有任何未经调试的语音数据背景的情况下生成语音。 对于 TTS 合成, 我们用在大型语音识别数据集上受过培训的语音分类器指导扩散模型的基因化过程。 我们提出了一个基于规范的缩放方法, 减少指导- TTS 中分类者指南的发音错误。 我们显示, 指导- TTS 取得了与最先进的 TTS 模型( Grad-TTS) 相似的性能, 但没有为 LJSpeech 提供任何记录。 我们进一步证明, 指导-TTS 在多种数据集上表现良好, 包括一个长式的未调制数据集。