成为VIP会员查看完整内容
VIP会员码认证
首页
主题
发现
会员
服务
注册
·
登录
0
吃下文本吐出语音,DeepMind提出新型端到端TTS模型EATS
2020 年 6 月 26 日
机器之心
选自arXiv
机器之心编译
参与:小舟、魔王
如何以端到端方式训练 TTS 系统?DeepMind 发起了挑战。其提出的 EATS 模型可在纯文本或者暂未对齐的原始音素输入序列上运行,并输出原始语音波形。
经典的文本转语音(以下称 TTS)系统包括多个独立训练或独立设计的阶段,如文本归一化、语言特征对齐、梅尔谱图合成和原始音频波形合成。尽管 TTS 已经能够实现逼真和高保真度的语音合成,并在现实中得到广泛应用,但这类模块化方法也存在许多缺点。比如每个阶段都需要监督,在某些情况下需要耗费高成本的「真值」标注来指导每个阶段的输出。此外,这类方法无法像机器学习领域很多预测或者合成任务那样,获得数据驱动「端到端」学习方法的全部潜在收益。
近日,来自 DeepMind 的研究者试图简化 TTS 流程,对以端到端的方式基于文本 / 音素合成语音的任务发起了挑战。他们提出了一种端到端对抗式 TTS 模型(End-to-end Adversarial Text-to-Speech,EATS),该模型可在纯文本或者暂未对齐的原始音素输入序列上运行,并输出原始语音波形。通过维护从网络中学习到的中间特征表征,该模型消除了大多数 TTS SOTA 模型中存在的典型中间瓶颈。
论文链接:https://arxiv.org/abs/2006.03575
该研究生成了一种完全可微的高效前馈校准架构,它能够预测每个输入 token 的持续时间并生成音频对齐表征。使用灵活的基于动态时间规整(dynamic time warping)的预测损失函数实现和输入条件对齐,同时允许模型捕获人类语音中的时序变化。最终得到系统的平均意见得分(MOS)达到 4.083,如果使用更丰富的监督信号进行训练,其性能可能接近 SOTA 结果。
具体而言,通过精心设计的校准器(aligner),并结合对抗反馈和特定域损失函数来指导训练,该研究证明了 TTS 系统可以用近乎端到端的方式进行学习,从而产生接近 SOTA TTS 系统的高保真度自然语音。
EATS 系统如何实现端到端文本转语音?
这项研究的目标是学习一个神经网络(生成器),用于将字符或音素输入序列映射到 24 kHz 原始音频。该任务极具挑战性,除了输入和输出信号的长度截然不同之外,输入和输出也并未对齐,即事先并不知道每个输入 token 对应的是哪个输出 token。
为了解决这些问题,研究者将生成器分为两个模块:1)校准器;2)解码器。校准器的作用是将未对齐的输入序列映射到与输出对齐的表征,但采样率较低为 200 Hz;解码器的作用是将校准器的输出上采样至完整音频频率。
整个生成器体系架构是可微的,并以端到端形式进行训练。重要的是,它是前馈卷积神经网络,因此适用于重视快速批处理推理(fast batched inference)的领域。下图展示了该模型的完整架构:
用于生成器训练的损失函数如下所示:
其中 L_G,adv 是对抗损失,在鉴别器输出中呈线性关系,它与铰链损失(hinge
loss )共同作为鉴别器的目标,类似于 GAN-TTS [8]。
EATS 系统效果如何?
关于实验评估的设置和结果,研究者描述了用于训练和验证架构决策和损失函数组件的超参数设置。
实验中用于评估语音质量的主要指标是人类评价者给出的平均意见得分(MOS),该指标的计算方式是:对 1000 个留出条件序列给出的 1-5 分自然评分取平均值。
训练数据集是由专业配音演员的高质量语音录音及其对应文本组成的。语音池由 69 位讲英语的北美男性和女性的语音组成,音频片段包含完整的句子,在 24 kHz 的频率下句子长度为不到 1 秒至 20 秒之间。每个说话人的语音长度分布时长不均,有的只有 15 分钟,有的则超过 51 小时,总计 260.49 小时。
在训练期间,研究者从说话人音频片段中采样 2 秒的窗口,如果不足两秒,则并用静默填充。为进行评估,研究者集中研究了数据集中最多产的说话人,该研究所有主要的 MOS 结果都是在该说话人 ID 下得出的。此外,该研究还给出了时长排名前四位的说话人的 MOS 结果。
下表 1 给出了 EATS 模型的定量结果,以及各种模型和学习信号组件的控制变量研究结果。
在控制变量实验中,训练设置和架构与基本的 EATS 模型相同,只有表 1 的各列中所描述的差异。
base 模型获得的 MOS 值为 4.083。尽管由于数据集的差异,我们很难将该结果与文献中的结果直接进行比较,但研究者还是给出了先前研究的 MOS 结果,这些 MOS 结果达到了 4.2 到 4.4 以上。和之前这些以对齐语言特征作为输入的模型相比,EATS 模型使用的监督更少。
最终,与仅用单个说话人(MOS 值 3.829)的训练做比较后发现,EATS 模型从更大的多说话人数据集中获益,尽管它的 MOS 值是基于只有一个说话人的控制变量研究的训练语音评估得到的。
讨论
尽管 EATS 系统生成语音的保真度和 SOTA 系统还有一段距离,但是 DeepMind 研究者相信端到端的文本转语音系统是未来趋势。端到端学习可以使整个系统从大量的数据中受益,将模型从大多数 TTS 系统的典型瓶颈(如梅尔谱图、对齐语言特征)解放出来,得以优化当前任务的中间表征。
该研究将使用 69 个说话人的语音数据训练得到的结果和只有一位说话人的控制变量研究结果进行了比较,发现前者使用了大约 4 倍的训练数据,基于训练后者所用的单一说话人语音得到的合成语音也更加自然。
值得注意的是,现有方法并未解决文本归一化和音素化的问题,而是依靠单独的固定系统来处理它们。而完全端到端的 TTS 系统可以处理不规则的原始文本。DeepMind 研究者认为,在有足够的训练数据和模型容量的情况下,完全由数据驱动的端到端方法最终必会流行。
WAIC 2020 黑客马拉松由世界人工智能大会组委会主办,张江集团、优必选科技、软银集团旗下软银机器人、Watson Build 创新中心、机器之心联合承办,受到新冠疫情的影响,比赛将于 7 月 8 日 - 11 日期间以远程和小规模线下结合的方式举办,招募全球顶级开发者同台竞技。
点击图片或「阅读原文」搭乘参赛
登录查看更多
点赞并收藏
0
暂时没有读者
0
权益说明
本文档仅做收录索引使用,若发现您的权益受到侵害,请立即联系客服(微信: zhuanzhi02,邮箱:bd@zhuanzhi.ai),我们会尽快为您处理
相关内容
EATS
关注
0
【CVPR2020-Oral】用于深度网络的任务感知超参数
专知会员服务
26+阅读 · 2020年5月25日
【ACL2020】对抗性文本生成,Improving Adversarial Text Generation
专知会员服务
51+阅读 · 2020年5月5日
【基于模型的强化学习的博弈论框架】A Game Theoretic Framework for Model Based Reinforcement Learning
专知会员服务
127+阅读 · 2020年4月19日
【Google-CMU】元伪标签的元学习,Meta Pseudo Labels
专知会员服务
31+阅读 · 2020年3月30日
【Texas 大学】强化学习领域的课程学习:一个框架和综述
专知会员服务
71+阅读 · 2020年3月22日
【Google】无监督机器翻译,Unsupervised Machine Translation
专知会员服务
35+阅读 · 2020年3月3日
【DeepMind】PolyGen: 一种三维网格的自回归生成模型,PolyGen: An Autoregressive Generative Model of 3D Meshes
专知会员服务
35+阅读 · 2020年2月27日
谷歌提出“T5” 新NLP模型,突破迁移学习局限,多基准测试达SOTA!
专知会员服务
40+阅读 · 2020年2月26日
【Google AI应用】利用机器学习来“短时预报”高分辨率的降水:Using Machine Learning to “Nowcast” Precipitation in High Resolution
专知会员服务
21+阅读 · 2020年1月15日
【NeurIPS 2019 Apple成果汇总】《Apple at NeurIPS 2019》
专知会员服务
10+阅读 · 2019年12月6日
浙大学霸本科生顶会研究!只需20分钟音频,AI就能逼真模仿你的声音
量子位
8+阅读 · 2019年6月3日
语音合成的里程碑:百度推出首个完全端到端的TTS模型
论智
7+阅读 · 2018年7月25日
学界 | 语音合成领域的首个完全端到端模型,百度提出并行音频波形生成模型ClariNet
机器之心
4+阅读 · 2018年7月24日
NAACL 2018 | 最佳论文:艾伦人工智能研究所提出新型深度语境化词表征
机器之心
5+阅读 · 2018年6月7日
业界 | 带有韵律的合成语音:谷歌展示基于Tacotron的新型TTS方法
机器之心
3+阅读 · 2018年3月30日
【谷歌推出TFGAN】开源的轻量级生成对抗网络库
GAN生成式对抗网络
3+阅读 · 2017年12月16日
谷歌开源 TFGAN:轻量级生成对抗网络工具库 | 软件推介
开源中国
6+阅读 · 2017年12月14日
【业界】DeepMind提出速度提高千倍的并行WaveNet语音合成方法
专知
5+阅读 · 2017年11月23日
业界 | Facebook开源TTS神经网络VoiceLoop:基于室外声音的语音合成(附PyTorch实现)
机器之心
4+阅读 · 2017年9月5日
详述DeepMind wavenet原理及其TensorFlow实现
深度学习每日摘要
12+阅读 · 2017年6月26日
WaveTTS: Tacotron-based TTS with Joint Time-Frequency Domain Loss
Arxiv
3+阅读 · 2020年4月6日
AlignTTS: Efficient Feed-Forward Text-to-Speech System without Explicit Alignment
Arxiv
3+阅读 · 2020年3月4日
Teacher-Student Training for Robust Tacotron-based TTS
Arxiv
5+阅读 · 2019年11月7日
Neural Assistant: Joint Action Prediction, Response Generation, and Latent Knowledge Reasoning
Arxiv
5+阅读 · 2019年10月31日
Neural Speech Synthesis with Transformer Network
Arxiv
5+阅读 · 2019年1月30日
Multi-class Classification without Multi-class Labels
Arxiv
4+阅读 · 2019年1月2日
Close to Human Quality TTS with Transformer
Arxiv
3+阅读 · 2018年11月13日
CoQA: A Conversational Question Answering Challenge
Arxiv
7+阅读 · 2018年8月21日
Reinforced Mnemonic Reader for Machine Reading Comprehension
Arxiv
10+阅读 · 2018年4月25日
Zero-Resource Neural Machine Translation with Multi-Agent Communication Game
Arxiv
4+阅读 · 2018年2月9日
VIP会员
自助开通(推荐)
客服开通
详情
相关主题
EATS
语音合成
端到端
音素
DeepMind
ATS
相关VIP内容
【CVPR2020-Oral】用于深度网络的任务感知超参数
专知会员服务
26+阅读 · 2020年5月25日
【ACL2020】对抗性文本生成,Improving Adversarial Text Generation
专知会员服务
51+阅读 · 2020年5月5日
【基于模型的强化学习的博弈论框架】A Game Theoretic Framework for Model Based Reinforcement Learning
专知会员服务
127+阅读 · 2020年4月19日
【Google-CMU】元伪标签的元学习,Meta Pseudo Labels
专知会员服务
31+阅读 · 2020年3月30日
【Texas 大学】强化学习领域的课程学习:一个框架和综述
专知会员服务
71+阅读 · 2020年3月22日
【Google】无监督机器翻译,Unsupervised Machine Translation
专知会员服务
35+阅读 · 2020年3月3日
【DeepMind】PolyGen: 一种三维网格的自回归生成模型,PolyGen: An Autoregressive Generative Model of 3D Meshes
专知会员服务
35+阅读 · 2020年2月27日
谷歌提出“T5” 新NLP模型,突破迁移学习局限,多基准测试达SOTA!
专知会员服务
40+阅读 · 2020年2月26日
【Google AI应用】利用机器学习来“短时预报”高分辨率的降水:Using Machine Learning to “Nowcast” Precipitation in High Resolution
专知会员服务
21+阅读 · 2020年1月15日
【NeurIPS 2019 Apple成果汇总】《Apple at NeurIPS 2019》
专知会员服务
10+阅读 · 2019年12月6日
热门VIP内容
开通专知VIP会员 享更多权益服务
OpenAI十二天总结与Agent新范式
【伯克利博士论文】高效深度学习推理的全栈方法
【AAAI2025】多层次最优传输用于语言模型中的通用跨标记器知识蒸馏
大规模语言模型增强推荐系统:分类、趋势、应用与未来
相关资讯
浙大学霸本科生顶会研究!只需20分钟音频,AI就能逼真模仿你的声音
量子位
8+阅读 · 2019年6月3日
语音合成的里程碑:百度推出首个完全端到端的TTS模型
论智
7+阅读 · 2018年7月25日
学界 | 语音合成领域的首个完全端到端模型,百度提出并行音频波形生成模型ClariNet
机器之心
4+阅读 · 2018年7月24日
NAACL 2018 | 最佳论文:艾伦人工智能研究所提出新型深度语境化词表征
机器之心
5+阅读 · 2018年6月7日
业界 | 带有韵律的合成语音:谷歌展示基于Tacotron的新型TTS方法
机器之心
3+阅读 · 2018年3月30日
【谷歌推出TFGAN】开源的轻量级生成对抗网络库
GAN生成式对抗网络
3+阅读 · 2017年12月16日
谷歌开源 TFGAN:轻量级生成对抗网络工具库 | 软件推介
开源中国
6+阅读 · 2017年12月14日
【业界】DeepMind提出速度提高千倍的并行WaveNet语音合成方法
专知
5+阅读 · 2017年11月23日
业界 | Facebook开源TTS神经网络VoiceLoop:基于室外声音的语音合成(附PyTorch实现)
机器之心
4+阅读 · 2017年9月5日
详述DeepMind wavenet原理及其TensorFlow实现
深度学习每日摘要
12+阅读 · 2017年6月26日
相关论文
WaveTTS: Tacotron-based TTS with Joint Time-Frequency Domain Loss
Arxiv
3+阅读 · 2020年4月6日
AlignTTS: Efficient Feed-Forward Text-to-Speech System without Explicit Alignment
Arxiv
3+阅读 · 2020年3月4日
Teacher-Student Training for Robust Tacotron-based TTS
Arxiv
5+阅读 · 2019年11月7日
Neural Assistant: Joint Action Prediction, Response Generation, and Latent Knowledge Reasoning
Arxiv
5+阅读 · 2019年10月31日
Neural Speech Synthesis with Transformer Network
Arxiv
5+阅读 · 2019年1月30日
Multi-class Classification without Multi-class Labels
Arxiv
4+阅读 · 2019年1月2日
Close to Human Quality TTS with Transformer
Arxiv
3+阅读 · 2018年11月13日
CoQA: A Conversational Question Answering Challenge
Arxiv
7+阅读 · 2018年8月21日
Reinforced Mnemonic Reader for Machine Reading Comprehension
Arxiv
10+阅读 · 2018年4月25日
Zero-Resource Neural Machine Translation with Multi-Agent Communication Game
Arxiv
4+阅读 · 2018年2月9日
大家都在搜
洛克菲勒
自主可控
大规模语言模型
CMU博士论文
数字孪生
无人艇
palantir
FaceNiff
空域
出海产品从 0 到 1 该怎么做
Top
提示
微信扫码
咨询专知VIP会员与技术项目合作
(加微信请备注: "专知")
微信扫码咨询专知VIP会员
Top