Parakeet:文本转语言工具包

会员服务 ·

Parakeet:文本转语言工具包

2020 年 3 月 14 日 专知

【导读】Parakeet旨在为开源社区提供一个灵活，高效和最新的文本到语音工具包。它建立在PaddlePaddle基础上，包含百度研究和其他研究小组提出的许多具有影响力的TTS模型。

Github地址：https://github.com/PaddlePaddle/Parakeet

它应用了百度研究提出的最新WaveFlow模型。

在Nvidia V100 GPU上，WaveFlow可以以比实时快40倍的速度合成22.05 kHz高保真语音，比WaveGlow与WaveNet。
WaveFlow是用于原始音频的基于足迹的流模型。它只有5.9M参数，比WaveGlow（87.9M）小15倍。
WaveFlow使用最大似然训练，而不像WaveNet和ClariNet那样使用的使用概率密度蒸馏和辅助损失，从而简化了训练流程并降低了开发成本。

概览

为了便于直接利用现有的TTS模型并开发新的模型，Parakeet选择了典型模型并在PaddlePaddle中提供了其参考实现。更进一步，Parakeet对TTS管道进行了抽象，并使数据预处理，通用模块共享，模型配置以及训练和综合过程标准化。此处支持的模型包括声码器和端到端TTS模型：

Vocoders

WaveFlow: A Compact Flow-based Model for Raw Audio
ClariNet: Parallel Wave Generation in End-to-End Text-to-Speech
WaveNet: A Generative Model for Raw Audio

TTS models

Deep Voice 3: Scaling Text-to-Speech with Convolutional Sequence Learning
Neural Speech Synthesis with Transformer Network (Transformer TTS)
FastSpeech: Fast, Robust and Controllable Text to Speech

配置

保证libsndfile1 库安装

sudo apt-get install libsndfile1

安装PaddlePaddle

参考链接：

https://www.paddlepaddle.org.cn/install/quick

安装Parakeet

git clone https://github.com/PaddlePaddle/Parakeetcd Parakeetpip install -e .

安装CMUDict

import nltknltk.download("punkt")nltk.download("cmudict")

使用

以使用WaveFlow为例

下载解压数据集：

wget https://data.keithito.com/data/speech/LJSpeech-1.1.tar.bz2tar xjvf LJSpeech-1.1.tar.bz2

在单个GPU下训练

export CUDA_VISIBLE_DEVICES=0python -u train.py \    --config=./configs/waveflow_ljspeech.yaml \    --root=./data/LJSpeech-1.1 \    --name=${ModelName} --batch_size=4 \    --parallel=false --use_gpu=true

在多个GPU下训练

export CUDA_VISIBLE_DEVICES=0,1,2,3python -u -m paddle.distributed.launch train.py \    --config=./configs/waveflow_ljspeech.yaml \    --root=./data/LJSpeech-1.1 \    --name=${ModelName} --parallel=true --use_gpu=true

评估模型

export CUDA_VISIBLE_DEVICES=0python -u benchmark.py \    --config=./configs/waveflow_ljspeech.yaml \    --root=./data/LJSpeech-1.1 \    --name=${ModelName} --use_gpu=true

专知，专业可信的人工智能知识分发，让认知协作更快更好！欢迎注册登录专知www.zhuanzhi.ai，获取5000+AI主题干货知识资料！

欢迎微信扫一扫加入专知人工智能知识星球群，获取最新AI专业干货知识教程资料和与专家交流咨询！

点击“阅读原文”，了解使用专知，查看获取5000+AI主题知识资源

登录查看更多

相关内容

语音合成

关注 491

语音合成（Speech Synthesis），也称为文语转换（Text-to-Speech, TTS,它是将任意的输入文本转换成自然流畅的语音输出。语音合成涉及到人工智能、心理学、声学、语言学、数字信号处理、计算机科学等多个学科技术，是信息处理领域中的一项前沿技术。随着计算机技术的不断提高，语音合成技术从早期的共振峰合成,逐步发展为波形拼接合成和统计参数语音合成，再发展到混合语音合成；合成语音的质量、自然度已经得到明显提高，基本能满足一些特定场合的应用需求。目前，语音合成技术在银行、医院等的信息播报系统、汽车导航系统、自动应答呼叫中心等都有广泛应用，取得了巨大的经济效益。另外，随着智能手机、MP3、PDA 等与我们生活密切相关的媒介的大量涌现，语音合成的应用也在逐渐向娱乐、语音教学、康复治疗等领域深入。可以说语音合成正在影响着人们生活的方方面面。

【干货书】用Python构建聊天机器人，205页pdf，使用自然语言处理和机器学习

专知会员服务

219+阅读 · 2020年6月14日

Python导论，476页pdf，现代Python计算

专知会员服务

264+阅读 · 2020年5月17日