Deep Vioce又更新了……
在上一代发布五个月后,百度研发的文字转语音(TTS)AI再次升级。这次的版本是Deep Vioce 3。尽管百度官方还没有宣布此事,但相关论文已经发布在arXiv上。
Deep Vioce 3是一个基于注意力的全卷积神经TTS系统。与目前最先进的Tacotron系统相比,Deep Vioce 3训练速度提高了10倍。
百度在Deep Voice 3上,使用了来自超过2000个声源、长达800多个小时的音频进行训练。此外,百度找到了减少错误的方法。以及如何在一个单GPU服务器上,把推断规模化到每天1000万次查询。
与前两代相比,Deep Voice 3采用了基于注意力的序列到序列模型,这个模型的详细架构如下图所示。
其中的注意力模块结构如下图所示。
另外,百度还在论文中公布了模型使用的超参数。
这篇论文的作者包括百度研究院的Wei Ping、Kainan Peng、Andrew Gibiansky、Sercan O. Arık、Ajay Kannan、Sharan Narang。
以及OpenAI的Jonathan Raiman,加州大学伯克利分校的John Miller。
论文地址在此:
https://arxiv.org/pdf/1710.07654.pdf