速度提升17.5倍!百度提出语音合成新模型,一个完全并行的神经TTS系统

2019 年 5 月 29 日 量子位
铜灵 发自 凹非寺
量子位 出品 | 公众号 QbitAI

文字转语音(TTS)领域又有了新进展。

这一次,百度提出了一种非自回归序列到序列的模型ParaNet,引入了一个完全并行的神经TTS系统,将文本转换成光谱图。

和此前百度提出的实时语音合成系统Deep Voice 3相比,ParaNet可在保证准确率相当的情况下,将速度提升到17.5倍。

这是如何做到的?

双刃的自回归特性

文字转语音(TTS)也称为语音合成,目前已经在人机交互、虚拟助手和内容创造等方面广泛应用了。

传统的TTS系统基于多级人工调配(hand-engineered),依赖此特征作为输入或进行预训练。

在这种方法中,基于自回归的深度神经网络模型已经取得了比较先进的研究,包括高保真度的音频合成、更简单的序列到序列(seq2seq)的pipeline。

其中,最流行的神经TTS pipeline通常包含两部分:

一是自回归seq2seq模型,从文本中生成梅尔光谱图;

二是自回归神经声码器(比如WaveNet),能够从梅尔光谱图中生成原始波形。

这种pipeline对专业知识深度的要求变少了,只需要成对的音频和评分,用于训练数据。

然而,这种模型的自回归特性也让合成速度变得很慢,因为它们以高时间分辨率连续运行波形样本或声学特征。

针对这个问题,也有不少研究在对其进行改进,比如谷歌的并行WaveNet(parallel WaveNet)和百度ClariNet,已经提出了并行波形合成的方法,但仍然依赖与自回归或递归组件生成音频帧级别的特征。

也就是说,此前的所有研究在为并行研究优化的现代硬件上,综合速度都有很大的提升空间。

在论文Parallel Neural Text-to-Speech中,百度研究院的研究人员提出的非自回归的文本-图谱模型ParaNet,引入了一个完全并行的神经TTS系统,想解决速度的问题。

在上面这张图中,a图为自回归seq2seq模型,虚线表示了推理过程中自回归解码的梅尔频谱图,b图为非自回归ParaNet模型,它从预先训练好的自回归模型中提取注意力。

ParaNet是首个非自回归基于注意力架构的TTS模型,这是一个完全卷积的结构,可将文本转换成梅尔频谱图。

ParaNet的架构如下图所示:

可以看出,其编码器提供了(key,value)作为文本表示。解码器中的第一个注意块获取位置编码作为查询指令,然后是非因果(non-causal)卷积块和注意块。

此外,研究人员通过应用逆向自回归流(inverse autoregressive flow ,IAF)作为并行神经声码器。它可以通过单一前向反馈从文本合成语音。

研究人员用不同的方法评估了ParaNet的语音合成效果。

结果显示,ParaNet在语音合成的速度上,比百度此前的Deep Voice 3架构提升了17.5倍,将运行50次的平均推理延迟从1.418秒降低到0.081秒。

并且,在合成语音的质量上,两种方法基本持平。

此外,研究人员发现,在给出100句测试集上测试文本到光谱模型的注意力误差时还发现,具有注意力mask的非自回归ParaNet在合成过程中的误差最小。

华人团队

这篇论文来自百度研究院,参与其中的四位共同一作均为华人。

作者之一的Kainan Peng,其Linkedin资料显示,自2015年从北京理工大学毕业后,Kainan继而去CMU攻读了电气与计算机工程的硕士。

2017年,Kainan入职了百度,参与了多篇顶会论文的研究,包括NIPS spotlight 2017的Deep Voice 2、被ICLR2018接收的Deep Voice 3、NIPS spotlight 2018论文Voice Cloning和ICLR 2019接收的研究ClariNet。

另一位作者Wei Ping是百度硅谷研究院的高级研究员。Wei Ping的履历同样闪闪发光,哈工大计算机科学本科、清华硕士、加州大学的博士。毕业后,Wei Ping在微软、加州大学就职过。

加入百度不到一年的时间以来,Wei Ping主导了百度基于WaveNet的并行音频波形生成模型ClariNet。

此外,百度研究院的Zhao SongKexin Zhao也参与了这项研究。

传送门

论文地址:
https://128.84.21.199/abs/1905.08459

项目主页:
https://parallel-neural-tts-demo.github.io/

作者系网易新闻·网易号“各有态度”签约作者


小程序|get更多AI学习干货

加入社群

量子位AI社群开始招募啦,社群矩阵:AI讨论群AI+行业群AI技术群


目前已有4万AI行业从业者、爱好者加入,AI技术群更有来自海内外各大高校实验室大牛各明星AI公司工程师等。自由互相交流AI发展现状及趋势。


欢迎对AI感兴趣的同学,在量子位公众号(QbitAI)对话界面回复关键字“微信群”,获取入群方式。(技术群与AI+行业群需经过审核,审核较严,敬请谅解)

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

喜欢就点「在看」吧 !

登录查看更多
6

相关内容

【CVPR2020】MSG-GAN:用于稳定图像合成的多尺度梯度GAN
专知会员服务
27+阅读 · 2020年4月6日
自回归模型:PixelCNN
专知会员服务
26+阅读 · 2020年3月21日
【Google】利用AUTOML实现加速感知神经网络设计
专知会员服务
29+阅读 · 2020年3月5日
【大规模数据系统,552页ppt】Large-scale Data Systems
专知会员服务
60+阅读 · 2019年12月21日
基于Tacotron模型的语音合成实践
深度学习每日摘要
15+阅读 · 2018年12月25日
小米的语音识别系统是如何搭建的
深度学习每日摘要
5+阅读 · 2017年9月3日
详述DeepMind wavenet原理及其TensorFlow实现
深度学习每日摘要
12+阅读 · 2017年6月26日
Arxiv
6+阅读 · 2020年4月14日
Teacher-Student Training for Robust Tacotron-based TTS
Neural Speech Synthesis with Transformer Network
Arxiv
5+阅读 · 2019年1月30日
Arxiv
3+阅读 · 2018年11月13日
Arxiv
7+阅读 · 2018年9月27日
VIP会员
Top
微信扫码咨询专知VIP会员