ESPnet2-TTS:扩大TTS研究的边缘 (ESPnet2-TTS: Extending the Edge of TTS Research)

This paper describes ESPnet2-TTS, an end-to-end text-to-speech (E2E-TTS) toolkit. ESPnet2-TTS extends our earlier version, ESPnet-TTS, by adding many new features, including: on-the-fly flexible pre-processing, joint training with neural vocoders, and state-of-the-art TTS models with extensions like full-band E2E text-to-waveform modeling, which simplify the training pipeline and further enhance TTS performance. The unified design of our recipes enables users to quickly reproduce state-of-the-art E2E-TTS results. We also provide many pre-trained models in a unified Python interface for inference, offering a quick means for users to generate baseline samples and build demos. Experimental evaluations with English and Japanese corpora demonstrate that our provided models synthesize utterances comparable to ground-truth ones, achieving state-of-the-art TTS performance. The toolkit is available online at https://github.com/espnet/espnet.

翻译：本文介绍ESPnet2-TTS(E2E-TTS)的终端到终端文本到终端语音工具包。ESPnet2-TTS扩展了我们早先的版本ESPnet-TTS,增加了许多新的特征,包括:在飞行时灵活处理前,与神经蒸发器进行联合培训,以及最新TTS模型,扩展如全波E2E文本到波形模型,简化了培训管道,进一步提高TTS的性能。我们的食谱的统一设计使用户能够迅速复制最新的E2E-TTS结果。我们还在统一的Python界面中提供了许多预先培训的模型,用于推断,为用户提供了生成基线样本和构建演示材料的快速手段。与英国和日本公司进行的实验性评估表明,我们提供的模型综合了可与地面图象相近的超文本,实现了TTTS的状态性能。工具包可在https://github.com/espnet/espnetnet上在线查阅。

相关内容

语音合成

关注 491

语音合成（Speech Synthesis），也称为文语转换（Text-to-Speech, TTS,它是将任意的输入文本转换成自然流畅的语音输出。语音合成涉及到人工智能、心理学、声学、语言学、数字信号处理、计算机科学等多个学科技术，是信息处理领域中的一项前沿技术。随着计算机技术的不断提高，语音合成技术从早期的共振峰合成,逐步发展为波形拼接合成和统计参数语音合成，再发展到混合语音合成；合成语音的质量、自然度已经得到明显提高，基本能满足一些特定场合的应用需求。目前，语音合成技术在银行、医院等的信息播报系统、汽车导航系统、自动应答呼叫中心等都有广泛应用，取得了巨大的经济效益。另外，随着智能手机、MP3、PDA 等与我们生活密切相关的媒介的大量涌现，语音合成的应用也在逐渐向娱乐、语音教学、康复治疗等领域深入。可以说语音合成正在影响着人们生活的方方面面。

【MIT-韩松】微型化机器学习与高效深度学习，127页ppt

专知会员服务

61+阅读 · 2021年10月29日

神经问题生成前沿综述

专知会员服务

16+阅读 · 2021年6月5日

【Google】深度学习对抗鲁棒性，43页ppt

专知会员服务

45+阅读 · 2020年10月31日

神经机器翻译前沿综述

专知会员服务

28+阅读 · 2020年9月9日