有了这个开源项目，说你是老板都有人信？

2019 年 9 月 8 日 程序猿

来自：开源最前线（ID：OpenSourceTop）

连接：https://towardsdatascience.com/you-can-now-speak-using-someone-elses-voice-with-deep-learning-8be24368fa2b

只要你采集了你Boss的语音，这个项目就可在短短几秒之内，克隆生成与之类似的语言，你想让它说什么，它就跟你说什么。

要实现这样的功能，首先不得不提文本转语音（TTS），它是指将文本转换为音频，人类只需阅读即可完成此任务，良好的TTS系统的目标是让计算机自动完成。

有趣的是有人构建了一个系统，可以选择你想要的声音生成音频，它可以是男声也可以是女声，你还可以选择他的声音是洪亮的还是低沉的。

在进行深度学习的TTS时，你必须收集文本-语音的数据集，并且录制这个音频的演讲者必须是固定的。如果你想要创建一个能够模仿自己/他人声音的音频，要做的第一件事就是收集音频

Real-Time-Voice-Cloning 就可以帮你实现，这是一个基于深度学习的语音合成项目，它通过采集分析一段具体的声音样本，可在 5 秒内生成与之类似的克隆语音。

那么它的工作原理是怎样的呢？

比如，假如我们想让蝙蝠侠读“我爱披萨”这句话，那么我们需要提供两样东西给系统：一个”我爱披萨“的文本和一段蝙蝠侠的语言样本，这样它才知道蝙蝠侠的声音是怎样的，以及他要读的文本是怎样的，具体流程如下：

在过去几年中，文本转语音系统在深度学习社区中得到了很多研究关注，如果你也想尝试，首先你需要克隆存储库：

git clone https://github.com/CorentinJ/Real-Time-Voice-Cloning.git

安装所需的库。一定要使用Python 3：

pip3 install -r requirements.txt

在README文件中，你还可以下载预先训练的模型和数据集，尝试一些样本。

最后，你可以通过运行以下命令来打开GUI：

python demo_toolbox.py -d <datasets_root>

如下图所示，系统将输出的语音文本为： “你知道多伦多猛龙队是篮球冠军吗？篮球是一项伟大的运动。 “

你可以单击“Random”按钮随机化语音输入，然后单击“加载”将语音输入加载到系统中。

你还可以通过以下视频查看视频演示： https://www.youtube.com/watch?v=-O_hYhToKoA

如果你感兴趣也可以用自己的声音试一下，或者把Boss的声音录下来，然后你想让他说什么就说什么，比如：这个月的Bug都不用找了。所以，躲在音频背后，说你Boss，都有人信。

目前，这个项目已经在GitHub上获得 4930 个Star， 549 个Fork（GitHub地址： https://github.com/CorentinJ/Real-Time-Voice-Cloning ）

不过，对于这项技术，有网友评论道：虽然很酷，但也是不道德的，容易造成谣言传播，使用需谨慎，对此，你怎么看呢？

●编号4019，输入编号直达本文

●输入m获取文章目录

推荐↓↓↓

开源最前线

登录查看更多

相关内容

语音合成

关注 491

语音合成（Speech Synthesis），也称为文语转换（Text-to-Speech, TTS,它是将任意的输入文本转换成自然流畅的语音输出。语音合成涉及到人工智能、心理学、声学、语言学、数字信号处理、计算机科学等多个学科技术，是信息处理领域中的一项前沿技术。随着计算机技术的不断提高，语音合成技术从早期的共振峰合成,逐步发展为波形拼接合成和统计参数语音合成，再发展到混合语音合成；合成语音的质量、自然度已经得到明显提高，基本能满足一些特定场合的应用需求。目前，语音合成技术在银行、医院等的信息播报系统、汽车导航系统、自动应答呼叫中心等都有广泛应用，取得了巨大的经济效益。另外，随着智能手机、MP3、PDA 等与我们生活密切相关的媒介的大量涌现，语音合成的应用也在逐渐向娱乐、语音教学、康复治疗等领域深入。可以说语音合成正在影响着人们生活的方方面面。

深度学习模型图难画论文难中？这个ML Visual利器帮你快速画出漂亮的模型图,160个模板

专知会员服务

896+阅读 · 2022年3月1日

《Python机器学习项目实战》，135页pdf带你小白入门机器学习

专知会员服务

174+阅读 · 2020年6月6日