【ICML2021】对抗学习条件变分自编码器的端到端文本转语音 - 专知VIP

会员服务 ·

0

文本转语音 · ICML 2021 · 对抗学习 · 变分自编码器 ·

2021 年 6 月 21 日

【ICML2021】对抗学习条件变分自编码器的端到端文本转语音

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

目前已经提出了几种支持单阶段训练和并行采样的端到端文本语音(TTS)模型，但它们的样本质量与两阶段TTS系统不匹配。在这项工作中，我们提出了一种并行的端到端TTS方法，它比目前的两阶段模型产生了更自然的声音。我们的方法采用了增加了规范化流程的变分推理和对抗性训练过程，提高了生成建模的表达能力。我们也提出一个随机的持续时间预测器来合成不同节奏的语音输入文本。通过对潜在变量的不确定性建模和随机持续时间预测，我们的方法表达了自然的一对多关系，在这种关系中，文本输入可以以不同的音高和节奏以多种方式表达。对LJ Speech(一个单独的说话人数据集)的主观评价(平均意见得分，或MOS)表明，我们的方法比最好的公开可用的TTS系统表现更好，达到了与ground truth相媲美的MOS。

https://www.zhuanzhi.ai/paper/9b9aaf2367201ce21477fde317d5b78f

成为VIP会员查看完整内容

10

相关内容

文本转语音

文本转语音

【ICML2021】弹性图神经网络

专知会员服务

37+阅读 · 2021年7月17日

【ICML2021】学习对称解纠缠多对象表示的有效迭代平摊推理

专知会员服务

15+阅读 · 2021年6月9日

【ICML2021】数据表示的几何评估

专知会员服务

38+阅读 · 2021年6月3日

【ICML2021】基于小波变换的图神经网络

专知会员服务

51+阅读 · 2021年5月19日

【ICML2021】有向图网络

专知会员服务

82+阅读 · 2021年5月10日

FastSpeech语音合成系统技术升级，微软联合浙大提出FastSpeech2

FastSpeech语音合成系统技术升级，微软联合浙大提出FastSpeech2

微软研究院AI头条

4+阅读 · 2020年6月23日

速度提升17.5倍！百度提出语音合成新模型，一个完全并行的神经TTS系统

速度提升17.5倍！百度提出语音合成新模型，一个完全并行的神经TTS系统

量子位

6+阅读 · 2019年5月29日

动态 | FAIR 最新论文：一种不需要训练就能探索句子分类的随机编码器

动态 | FAIR 最新论文：一种不需要训练就能探索句子分类的随机编码器

AI科技评论

3+阅读 · 2019年1月31日

业界 | 带有韵律的合成语音：谷歌展示基于Tacotron的新型TTS方法

业界 | 带有韵律的合成语音：谷歌展示基于Tacotron的新型TTS方法

机器之心

3+阅读 · 2018年3月30日

【谷歌推出TFGAN】开源的轻量级生成对抗网络库

【谷歌推出TFGAN】开源的轻量级生成对抗网络库

GAN生成式对抗网络

3+阅读 · 2017年12月16日

A Unified Objective for Novel Class Discovery

Arxiv

0+阅读 · 2021年8月20日

Conditional Variational Autoencoder with Adversarial Learning for End-to-End Text-to-Speech

Arxiv

7+阅读 · 2021年6月11日

Phase-aware Speech Enhancement with Deep Complex U-Net

Phase-aware Speech Enhancement with Deep Complex U-Net

Arxiv

15+阅读 · 2019年3月7日

Generative Adversarial Autoencoder Networks

Arxiv

11+阅读 · 2018年3月23日

Audio Adversarial Examples: Targeted Attacks on Speech-to-Text

Arxiv

18+阅读 · 2018年1月5日

VIP会员

相关主题

文本转语音

变分自编码器

相关VIP内容

【ICML2021】弹性图神经网络

专知会员服务

37+阅读 · 2021年7月17日

【ICML2021】学习对称解纠缠多对象表示的有效迭代平摊推理

专知会员服务

15+阅读 · 2021年6月9日

【ICML2021】数据表示的几何评估

专知会员服务

38+阅读 · 2021年6月3日

【ICML2021】基于小波变换的图神经网络

专知会员服务

51+阅读 · 2021年5月19日

【ICML2021】有向图网络

专知会员服务

82+阅读 · 2021年5月10日

热门VIP内容

开通专知VIP会员享更多权益服务

【书籍】从零开始构建文本生成图像生成器：基于 Transformers 与扩散模型

人工智能与未来指挥

【伯克利博士论文】将大语言模型绑定至虚拟人格：实现人类行为模拟

稀疏自编码器综述：解释大语言模型的内部机制

相关资讯

FastSpeech语音合成系统技术升级，微软联合浙大提出FastSpeech2

FastSpeech语音合成系统技术升级，微软联合浙大提出FastSpeech2

微软研究院AI头条

4+阅读 · 2020年6月23日

速度提升17.5倍！百度提出语音合成新模型，一个完全并行的神经TTS系统

速度提升17.5倍！百度提出语音合成新模型，一个完全并行的神经TTS系统

量子位

6+阅读 · 2019年5月29日

动态 | FAIR 最新论文：一种不需要训练就能探索句子分类的随机编码器

动态 | FAIR 最新论文：一种不需要训练就能探索句子分类的随机编码器

AI科技评论

3+阅读 · 2019年1月31日

业界 | 带有韵律的合成语音：谷歌展示基于Tacotron的新型TTS方法

业界 | 带有韵律的合成语音：谷歌展示基于Tacotron的新型TTS方法

机器之心

3+阅读 · 2018年3月30日

【谷歌推出TFGAN】开源的轻量级生成对抗网络库

【谷歌推出TFGAN】开源的轻量级生成对抗网络库

GAN生成式对抗网络

3+阅读 · 2017年12月16日

相关论文

A Unified Objective for Novel Class Discovery

Arxiv

0+阅读 · 2021年8月20日

Conditional Variational Autoencoder with Adversarial Learning for End-to-End Text-to-Speech

Arxiv

7+阅读 · 2021年6月11日

Phase-aware Speech Enhancement with Deep Complex U-Net

Phase-aware Speech Enhancement with Deep Complex U-Net

Arxiv

15+阅读 · 2019年3月7日

Generative Adversarial Autoencoder Networks

Arxiv

11+阅读 · 2018年3月23日

Audio Adversarial Examples: Targeted Attacks on Speech-to-Text

Arxiv

18+阅读 · 2018年1月5日

微信扫码咨询专知VIP会员