标贝科技：TensorFlow 框架提升语音合成效果

2019 年 4 月 29 日 谷歌开发者

文 / 标贝（北京）科技有限公司

长久以来，传统的语音合成技术，主要围绕着统计参数合成和拼接合成展开，两种方法虽各有利弊，但基本满足了可懂度的要求，语音合成技术得以在多种场景下应用，尤其是导航播报这样的强需求场景。

最近几年，基于深度学习的语音合成技术快速发展，语音合成系统中的模型逐步被深度学习模型所替代。

尤其是 2016 年，随着 wavenet 技术的问世，将参数合成技术带入了一个新的阶段。神经网络声码器的合成效果，逐步接近拼接合成的音质，而其流畅度明显好于拼接合成。从 wavenet，parallel wavenet，到 waveglow, wavernn 等, 神经网络声码器技术持续进步，算法复杂度不断下降，逐渐让工程化应用成为可能。

标贝科技，一直密切关注语音合成技术的演化，分析技术变革所带来的需求场景的可能的变化，充分结合自身的技术优势，投入到新技术的研发当中。

标贝科技所研发的语音合成相关模型，都是采用 TensorFlow 框架进行实现的。模型的训练情况，也是通过 TensorBoard 进行分析，从而进行优化。越来越复杂的模型，固然有其优势，但同时也产生了一些不稳定的因素，通过对模型的可视化分析，我们进行了一系列的改进，从而使得模型效果不断提升。

TensorFlow 是目前应用最为广泛的开源深度学习框架，不但提供了一些列底层实现，而且提供了很多高级功能，非常便于开展实验研究，快速发现和解决问题。

通过利用 TensorFlow，我们可以快速验证相关的算法，并进行改进，大大缩短了技术开发周期，降低了研发成本和风险 — 将输入维度从数万维降为数十维，并且降低了运算量。

同时，利用自有的技术和数据资源，研发了一种基于 Attention 的高质量语音合成系统，通过利用 TensorFlow 搭建的训练平台对声音建模后，合成效果有了明显提升 — 更自然的抑扬顿挫、情感起伏，逼真度也有了进一步提升。

本次利用 TensorFlow 模型对合成系统的全新升级，标贝科技以 “声音超市” 的模式，对外提供一系列的语音合成解决方案。新的合成效果以及推广模式都已经得到广大合作伙伴的认可，行业影响力快速提升，成为了语音合成领域的知名企业。

同时，标贝科技利用新型合成技术进行了一次大胆的尝试 — 合成娱乐明星、知名 IP 的声音，直接用成果面对更大的用户市场来检验技术和算法。

明星的声音是具有极高辨识性的，这个辨识性不单单是指声线的独特。观众和粉丝群体会对这个声音有很高的心理预期。从更像真人到更像本人，除了声音要相似外，还要符合明星本人的个性和发音习惯，这就意味着 “及格线” 提高了。

我们联合《创造101》的成员陈意涵、魏瑾，利用新技术合成出她们的声音，将端口放到活动页面中，用户输入任何文字，就能听她们 “亲口” 送上独一无二的专属话语。

本次尝试，让标贝科技在活动当天就登上了当天的微博热门话题，当天全网总曝光量达千万次，数百万人使用了这两位明星端口合成语音。除了收获好评外，本次活动也让标贝科技看到了广大的用户市场对于高质量语音合成技术的惊喜和更多期待。

未来，标贝科技会利用 TensorFlow 框架所带来的技术红利结合不同的应用场景，通过 “声音超市” 的模式进行技术的落地。对标贝科技来说，仅作为场景需求的解决方是不够的，应用场景有多宽广、语音合成未来能有多好玩，也需要技术人员天马行空的 “造梦”，才能为用户带来更好的声音体验。

更多 AI 相关阅读：

登录查看更多

相关内容

语音合成

关注 491

语音合成（Speech Synthesis），也称为文语转换（Text-to-Speech, TTS,它是将任意的输入文本转换成自然流畅的语音输出。语音合成涉及到人工智能、心理学、声学、语言学、数字信号处理、计算机科学等多个学科技术，是信息处理领域中的一项前沿技术。随着计算机技术的不断提高，语音合成技术从早期的共振峰合成,逐步发展为波形拼接合成和统计参数语音合成，再发展到混合语音合成；合成语音的质量、自然度已经得到明显提高，基本能满足一些特定场合的应用需求。目前，语音合成技术在银行、医院等的信息播报系统、汽车导航系统、自动应答呼叫中心等都有广泛应用，取得了巨大的经济效益。另外，随着智能手机、MP3、PDA 等与我们生活密切相关的媒介的大量涌现，语音合成的应用也在逐渐向娱乐、语音教学、康复治疗等领域深入。可以说语音合成正在影响着人们生活的方方面面。

基于FPGA的机器学习硬件加速研究进展

专知会员服务

81+阅读 · 2020年6月20日

综述：NLP中的深度学习优势，附21页论文下载

专知会员服务

104+阅读 · 2020年3月12日

【上海交大-ICASSP2020】Transformer端到端的多说话人语音识别

专知会员服务

51+阅读 · 2020年2月16日