吃下文本吐出语音，DeepMind提出新型端到端TTS模型EATS

2020 年 6 月 26 日 机器之心

选自arXiv

机器之心编译

参与：小舟、魔王

如何以端到端方式训练 TTS 系统？DeepMind 发起了挑战。其提出的 EATS 模型可在纯文本或者暂未对齐的原始音素输入序列上运行，并输出原始语音波形。

经典的文本转语音（以下称 TTS）系统包括多个独立训练或独立设计的阶段，如文本归一化、语言特征对齐、梅尔谱图合成和原始音频波形合成。尽管 TTS 已经能够实现逼真和高保真度的语音合成，并在现实中得到广泛应用，但这类模块化方法也存在许多缺点。比如每个阶段都需要监督，在某些情况下需要耗费高成本的「真值」标注来指导每个阶段的输出。此外，这类方法无法像机器学习领域很多预测或者合成任务那样，获得数据驱动「端到端」学习方法的全部潜在收益。

近日，来自 DeepMind 的研究者试图简化 TTS 流程，对以端到端的方式基于文本 / 音素合成语音的任务发起了挑战。他们提出了一种端到端对抗式 TTS 模型（End-to-end Adversarial Text-to-Speech，EATS），该模型可在纯文本或者暂未对齐的原始音素输入序列上运行，并输出原始语音波形。通过维护从网络中学习到的中间特征表征，该模型消除了大多数 TTS SOTA 模型中存在的典型中间瓶颈。

论文链接：https://arxiv.org/abs/2006.03575

该研究生成了一种完全可微的高效前馈校准架构，它能够预测每个输入 token 的持续时间并生成音频对齐表征。使用灵活的基于动态时间规整（dynamic time warping）的预测损失函数实现和输入条件对齐，同时允许模型捕获人类语音中的时序变化。最终得到系统的平均意见得分（MOS）达到 4.083，如果使用更丰富的监督信号进行训练，其性能可能接近 SOTA 结果。

具体而言，通过精心设计的校准器（aligner），并结合对抗反馈和特定域损失函数来指导训练，该研究证明了 TTS 系统可以用近乎端到端的方式进行学习，从而产生接近 SOTA TTS 系统的高保真度自然语音。

EATS 系统如何实现端到端文本转语音？

这项研究的目标是学习一个神经网络（生成器），用于将字符或音素输入序列映射到 24 kHz 原始音频。该任务极具挑战性，除了输入和输出信号的长度截然不同之外，输入和输出也并未对齐，即事先并不知道每个输入 token 对应的是哪个输出 token。

为了解决这些问题，研究者将生成器分为两个模块：1）校准器；2）解码器。校准器的作用是将未对齐的输入序列映射到与输出对齐的表征，但采样率较低为 200 Hz；解码器的作用是将校准器的输出上采样至完整音频频率。

整个生成器体系架构是可微的，并以端到端形式进行训练。重要的是，它是前馈卷积神经网络，因此适用于重视快速批处理推理（fast batched inference）的领域。下图展示了该模型的完整架构：

用于生成器训练的损失函数如下所示：

其中 L_G,adv 是对抗损失，在鉴别器输出中呈线性关系，它与铰链损失（hinge

loss ）共同作为鉴别器的目标，类似于 GAN-TTS [8]。

EATS 系统效果如何？

关于实验评估的设置和结果，研究者描述了用于训练和验证架构决策和损失函数组件的超参数设置。

实验中用于评估语音质量的主要指标是人类评价者给出的平均意见得分（MOS），该指标的计算方式是：对 1000 个留出条件序列给出的 1-5 分自然评分取平均值。

训练数据集是由专业配音演员的高质量语音录音及其对应文本组成的。语音池由 69 位讲英语的北美男性和女性的语音组成，音频片段包含完整的句子，在 24 kHz 的频率下句子长度为不到 1 秒至 20 秒之间。每个说话人的语音长度分布时长不均，有的只有 15 分钟，有的则超过 51 小时，总计 260.49 小时。

在训练期间，研究者从说话人音频片段中采样 2 秒的窗口，如果不足两秒，则并用静默填充。为进行评估，研究者集中研究了数据集中最多产的说话人，该研究所有主要的 MOS 结果都是在该说话人 ID 下得出的。此外，该研究还给出了时长排名前四位的说话人的 MOS 结果。

下表 1 给出了 EATS 模型的定量结果，以及各种模型和学习信号组件的控制变量研究结果。