速度提升17.5倍！百度提出语音合成新模型，一个完全并行的神经TTS系统

会员服务 ·

速度提升17.5倍！百度提出语音合成新模型，一个完全并行的神经TTS系统

2019 年 5 月 29 日 量子位

铜灵发自凹非寺
量子位出品 | 公众号 QbitAI

文字转语音（TTS）领域又有了新进展。

这一次，百度提出了一种非自回归序列到序列的模型ParaNet，引入了一个完全并行的神经TTS系统，将文本转换成光谱图。

和此前百度提出的实时语音合成系统Deep Voice 3相比，ParaNet可在保证准确率相当的情况下，将速度提升到17.5倍。

这是如何做到的？

双刃的自回归特性

文字转语音（TTS）也称为语音合成，目前已经在人机交互、虚拟助手和内容创造等方面广泛应用了。

传统的TTS系统基于多级人工调配（hand-engineered），依赖此特征作为输入或进行预训练。

在这种方法中，基于自回归的深度神经网络模型已经取得了比较先进的研究，包括高保真度的音频合成、更简单的序列到序列(seq2seq)的pipeline。

其中，最流行的神经TTS pipeline通常包含两部分：

一是自回归seq2seq模型，从文本中生成梅尔光谱图；

二是自回归神经声码器（比如WaveNet），能够从梅尔光谱图中生成原始波形。

这种pipeline对专业知识深度的要求变少了，只需要成对的音频和评分，用于训练数据。

然而，这种模型的自回归特性也让合成速度变得很慢，因为它们以高时间分辨率连续运行波形样本或声学特征。

针对这个问题，也有不少研究在对其进行改进，比如谷歌的并行WaveNet（parallel WaveNet）和百度ClariNet，已经提出了并行波形合成的方法，但仍然依赖与自回归或递归组件生成音频帧级别的特征。

也就是说，此前的所有研究在为并行研究优化的现代硬件上，综合速度都有很大的提升空间。

在论文Parallel Neural Text-to-Speech中，百度研究院的研究人员提出的非自回归的文本-图谱模型ParaNet，引入了一个完全并行的神经TTS系统，想解决速度的问题。

在上面这张图中，a图为自回归seq2seq模型，虚线表示了推理过程中自回归解码的梅尔频谱图，b图为非自回归ParaNet模型，它从预先训练好的自回归模型中提取注意力。

ParaNet是首个非自回归基于注意力架构的TTS模型，这是一个完全卷积的结构，可将文本转换成梅尔频谱图。

ParaNet的架构如下图所示：

可以看出，其编码器提供了（key,value）作为文本表示。解码器中的第一个注意块获取位置编码作为查询指令，然后是非因果（non-causal）卷积块和注意块。

此外，研究人员通过应用逆向自回归流（inverse autoregressive flow ，IAF）作为并行神经声码器。它可以通过单一前向反馈从文本合成语音。

研究人员用不同的方法评估了ParaNet的语音合成效果。

结果显示，ParaNet在语音合成的速度上，比百度此前的Deep Voice 3架构提升了17.5倍，将运行50次的平均推理延迟从1.418秒降低到0.081秒。

并且，在合成语音的质量上，两种方法基本持平。

此外，研究人员发现，在给出100句测试集上测试文本到光谱模型的注意力误差时还发现，具有注意力mask的非自回归ParaNet在合成过程中的误差最小。

华人团队

这篇论文来自百度研究院，参与其中的四位共同一作均为华人。

作者之一的Kainan Peng，其Linkedin资料显示，自2015年从北京理工大学毕业后，Kainan继而去CMU攻读了电气与计算机工程的硕士。

2017年，Kainan入职了百度，参与了多篇顶会论文的研究，包括NIPS spotlight 2017的Deep Voice 2、被ICLR2018接收的Deep Voice 3、NIPS spotlight 2018论文Voice Cloning和ICLR 2019接收的研究ClariNet。

另一位作者Wei Ping是百度硅谷研究院的高级研究员。Wei Ping的履历同样闪闪发光，哈工大计算机科学本科、清华硕士、加州大学的博士。毕业后，Wei Ping在微软、加州大学就职过。

加入百度不到一年的时间以来，Wei Ping主导了百度基于WaveNet的并行音频波形生成模型ClariNet。

此外，百度研究院的Zhao Song和Kexin Zhao也参与了这项研究。

传送门

论文地址：
https://128.84.21.199/abs/1905.08459

项目主页：
https://parallel-neural-tts-demo.github.io/

作者系网易新闻·网易号“各有态度”签约作者

— 完 —

小程序|get更多AI学习干货

加入社群

量子位AI社群开始招募啦，社群矩阵：AI讨论群、AI+行业群、AI技术群；

目前已有4万AI行业从业者、爱好者加入，AI技术群更有来自海内外各大高校实验室大牛、各明星AI公司工程师等。自由互相交流AI发展现状及趋势。

欢迎对AI感兴趣的同学，在量子位公众号（QbitAI）对话界面回复关键字“微信群”，获取入群方式。（技术群与AI+行业群需经过审核，审核较严，敬请谅解）

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

喜欢就点「在看」吧 !

登录查看更多

相关内容

神经TTS

关注 0

神经网络与形式语言综述，12页pdf，A Survey of Neural Networks and Formal Languages

专知会员服务

21+阅读 · 2020年6月4日

【CVPR2020】MSG-GAN:用于稳定图像合成的多尺度梯度GAN

专知会员服务

29+阅读 · 2020年4月6日

【FAIR-CVPR2020】PIFuHD:多级像素对齐隐式功能，实现高分辨率三维人体数字化

专知会员服务

29+阅读 · 2020年4月5日

自回归模型:PixelCNN

专知会员服务

27+阅读 · 2020年3月21日

【Google】利用AUTOML实现加速感知神经网络设计

专知会员服务

30+阅读 · 2020年3月5日

【上海交大-ICASSP2020】Transformer端到端的多说话人语音识别

专知会员服务

51+阅读 · 2020年2月16日

【Yoshua Bengio新论文】多任务自监督学习语音识别，MULTI-TASK SELF-SUPERVISED LEARNING FOR ROBUST SPEECH RECOGNITION

专知会员服务

39+阅读 · 2020年1月30日

【中科院自动化所】序列到序列语音识别的无监督预训练（Unsupervised pre-training for sequence to sequence speech recognition）

专知会员服务

33+阅读 · 2020年1月5日

【大规模数据系统，552页ppt】Large-scale Data Systems

专知会员服务

61+阅读 · 2019年12月21日

【AAAI2020论文】GMAN：基于图多注意力网络的交通检测（GMAN: A Graph Multi-Attention Network for Traffic Prediction），范晓亮，戚建中等

专知会员服务

76+阅读 · 2019年11月22日

翻译|同声传译被攻陷！谷歌发布Translatotron直接语音翻译系统

机器人大讲堂

4+阅读 · 2019年5月17日

谷歌提出新型自动语音识别数据增强大法，直接对频谱图“动刀”，提升模型表现

量子位

8+阅读 · 2019年4月28日

基于Tacotron模型的语音合成实践

深度学习每日摘要

15+阅读 · 2018年12月25日

语音合成的里程碑：百度推出首个完全端到端的TTS模型

论智

7+阅读 · 2018年7月25日

学界 | 语音合成领域的首个完全端到端模型，百度提出并行音频波形生成模型ClariNet

机器之心

4+阅读 · 2018年7月24日

业界 | 带有韵律的合成语音：谷歌展示基于Tacotron的新型TTS方法

机器之心

3+阅读 · 2018年3月30日

学界 | 谷歌语音识别端到端系统单词错误率降至5.6%，较传统模型提升16%

AI科技评论

5+阅读 · 2017年12月16日

【业界】DeepMind提出速度提高千倍的并行WaveNet语音合成方法

专知

5+阅读 · 2017年11月23日

小米的语音识别系统是如何搭建的

深度学习每日摘要

5+阅读 · 2017年9月3日

详述DeepMind wavenet原理及其TensorFlow实现

深度学习每日摘要

12+阅读 · 2017年6月26日

Transformer based Grapheme-to-Phoneme Conversion

Arxiv

6+阅读 · 2020年4月14日

Teacher-Student Training for Robust Tacotron-based TTS

Arxiv

5+阅读 · 2019年11月7日

A Comparative Study on Transformer vs RNN in Speech Applications

Arxiv

4+阅读 · 2019年9月13日

SpecAugment: A Simple Data Augmentation Method for Automatic Speech Recognition

Arxiv

7+阅读 · 2019年4月18日

Neural Speech Synthesis with Transformer Network

Arxiv

5+阅读 · 2019年1月30日

Neural source-filter-based waveform model for statistical parametric speech synthesis

Arxiv

4+阅读 · 2018年11月26日

Close to Human Quality TTS with Transformer

Arxiv

3+阅读 · 2018年11月13日

Sample Efficient Adaptive Text-to-Speech

Arxiv

7+阅读 · 2018年9月27日

End-to-end Speech Recognition with Word-based RNN Language Models

Arxiv

3+阅读 · 2018年8月8日

State-of-the-art Speech Recognition With Sequence-to-Sequence Models

Arxiv

7+阅读 · 2018年1月18日

VIP会员