FBWave: 高效和可缩放的神经电动电动电动电动电动电动电动电动电动电动电动电动电动电动电动电动电动电动电动电动电动电动电动电动电动电动电动电动电动电动电动电动电动电动电动电动电动电动电动电动电动电动器 (FBWave: Efficient and Scalable Neural Vocoders for Streaming Text-To-Speech on the Edge)

Nowadays more and more applications can benefit from edge-based text-to-speech (TTS). However, most existing TTS models are too computationally expensive and are not flexible enough to be deployed on the diverse variety of edge devices with their equally diverse computational capacities. To address this, we propose FBWave, a family of efficient and scalable neural vocoders that can achieve optimal performance-efficiency trade-offs for different edge devices. FBWave is a hybrid flow-based generative model that combines the advantages of autoregressive and non-autoregressive models. It produces high quality audio and supports streaming during inference while remaining highly computationally efficient. Our experiments show that FBWave can achieve similar audio quality to WaveRNN while reducing MACs by 40x. More efficient variants of FBWave can achieve up to 109x fewer MACs while still delivering acceptable audio quality. Audio demos are available at https://bichenwu09.github.io/vocoder_demos.

翻译：目前,越来越多的应用可以受益于基于边缘的文本到语音(TTS),然而,大多数现有的TTS模型在计算上过于昂贵,而且不够灵活,无法在各种具有同样不同计算能力的边缘装置上部署。为了解决这个问题,我们提议FBWave, 这是一个高效且可扩缩的神经蒸汽器组成的大家庭,可以实现不同边缘装置的最佳性能-效率权衡。FBWave是一个基于流动的混合模型,它结合了自动递减和非自动递增模型的优势。它在推断期间产生高质量的音频和支持流流,同时保持高度的计算效率。我们的实验显示,FBWave可以达到与WaveRNN的类似音质,同时将MACs减少40x。 FBWave的更高效的变体可以在提供可接受的音质的同时达到109x更少的MACs。音频演示可在https://bichenwu09.github.io/vocode_demos上查阅。

相关内容

语音合成

关注 491

语音合成（Speech Synthesis），也称为文语转换（Text-to-Speech, TTS,它是将任意的输入文本转换成自然流畅的语音输出。语音合成涉及到人工智能、心理学、声学、语言学、数字信号处理、计算机科学等多个学科技术，是信息处理领域中的一项前沿技术。随着计算机技术的不断提高，语音合成技术从早期的共振峰合成,逐步发展为波形拼接合成和统计参数语音合成，再发展到混合语音合成；合成语音的质量、自然度已经得到明显提高，基本能满足一些特定场合的应用需求。目前，语音合成技术在银行、医院等的信息播报系统、汽车导航系统、自动应答呼叫中心等都有广泛应用，取得了巨大的经济效益。另外，随着智能手机、MP3、PDA 等与我们生活密切相关的媒介的大量涌现，语音合成的应用也在逐渐向娱乐、语音教学、康复治疗等领域深入。可以说语音合成正在影响着人们生活的方方面面。

【ETH】最新《几何数据分析》2020课程，附PPT下载

专知会员服务

44+阅读 · 2020年12月18日

【干货书】机器学习速查手册，135页pdf

专知会员服务

127+阅读 · 2020年11月20日

专知会员服务

30+阅读 · 2020年11月4日

【干货书】现代数据平台架构，636页pdf

专知会员服务

259+阅读 · 2020年6月15日

【知识图谱嵌入补全综述论文】embedding models for knowledge base completion