新智元报道
来源:research.baidu.com
编译:刘小芹
【新智元导读】百度研究院今年初发布的完全深度神经网络构建的 Deep Voice 文本到语音转化系统,声称在转化速度上比 WaveNet 快400倍。但当时的系统只能转化20小时语音,而且只有一种声音。不到三个月的时间,这个系统得到大幅升级,能够生成数百个小时的语音,拥有数百种声音。
百度在官方博客介绍了升级版 Deep Voice 2:
今年2月,百度硅谷 AI Lab 发布了 Deep Voice 1,这是一个完全使用深度神经网络生成人类语音的系统。与其他使用神经网络的文本到语音(text-to-speech,TTS)系统不同的是,Deep Voice 1是实时运行的,能在需要播放语音时非常快速地合成音频,因此适用于媒体或对话界面之类的交互应用。通过训练能够从大量数据和简单特征学习的深度神经网络,我们创建了一个非常灵活而且高质量的实时语音合成系统。
今天,我们很高兴地宣布推出 Deep Voice 2,这是 Deep Voice 系统的第二代版本。短短三个月时间,我们已经将第一代系统只能生成20小时语音,只有一种声音,扩大到数百小时语音,并且可以拥有数百种声音。Deep Voice 2能够从数百种声音学习,并且能够完美地模仿这些声音。与传统的这类系统不同,传统的系统需要使用同一个说话人的数十小时的语音来训练,但 Deep Voice 2只需每个说话人不到半小时的语音数据,就可以学会数百种独特的声音,同时拥有高音质。
Deep Voice 2 通过寻找不同声音之间的共同特征来学习语音。具体来说,每个声音对应一个单个的向量,即总结了如何模仿目标声音来生成语音的约50个数字。与以前的 TTS 系统都不同,Deep Voice 2 是从头开始学习这些特征,不需要任何关于这些声音的区别的指导。
音频片段试听地址:http://research.baidu.com/deep-voice-2-multi-speaker-neural-text-speech/
论文:Deep Voice 2: Multi-Speaker Neural Text-to-Speech
有关 Deep Voice 2 的更多信息,请阅读我们的论文。
论文下载地址:http://research.baidu.com/wp-content/uploads/2017/05/Deep-Voice-2-Complete-Arxiv.pdf