有内味了!MIT文本转语音神器,少量数据集还原角色声音 | 在线免费

2020 年 3 月 8 日 量子位
十三 发自 凹非寺
量子位 报道 | 公众号 QbitAI

文本转语音,又出了个神器。

这个工具来自MIT,并且还是在线、免费,可以用它来生成各种字符的44.1 kHz声音。

这些声音是使用多种音频合成算法定制的深层神经网络实时生成的。

最惊艳的是,这个工具只需要少量的文本数据,还能保留文本所表达出来的韵律,可以说是相当的“声情并茂”了。

使用起来非常简单,主页中的“Source”提供了几部电影或动画,“Character”提供了里面的一些角色。

只需要在文本框中输入不多于140字符的文本,点击生成,就能很快输出对应角色、带有韵律的语音。

文本转语音,有内味儿了

效果怎么样?我们先来看看几个例子。

首先是《Portal 2》中的GLaDOS的声音。

The Enrichment Center would like to announce a new employee initiative (inishutive) of forced voluntary participation. If any Aperture Science employee would like to opt out of this new voluntary testing program, please remember, science rhymes with compliance.

接下来是《My Little Pony》中Fluttershy的声音。

As we speak I am contacting (cawnt tacting) my secret network of spies across the USA (you ess ay) and your IP (iypea) is being traced right now so you better prepare for the storm, maggot. The storm that wipes out the pathetic (puh thetic) little thing you call your life.

最后,是来自《Doctor Who》中Tenth Doctor的声音。

Harry tells me you’re quite the science whiz. You know, I’m something of a scientist myself.

嗯,确实有内味儿了!

好玩,但可以更完美

当然,我们也可以从一些例子中听出来,出来的声音并不是完美的,作者对此也做出了解释。

为什么有些句子听起来像机器人或者声音比较嘶哑?

这个工具生成音频文件的采样率为44100 Hz,而大多数深度学习文本到语音实现使用的是传统采样率,为16000 Hz。

这样处理的一个优点就是产生的音频质量比较高,但是代价也是明显的。

使用一个外部程序(例如 Audacity)来降低音频的采样率,这样就可以让声音听着不那么像机器人。

为什么有些字发音不正确?

这是因为和标准数据集相比,字符数据集非常小,标准音频通常有超过40小时的对话,包含许多不同的词汇。

而这个工具的字符数据集,每个字符只有30至120分钟的对话。

当然,作者也表示,由于英语拼写的不一致,即使是人类也无法100% 准确地说出不熟悉的单词。其中一些问题将来可能会得到解决。

传送门

工具地址:
https://fifteen.ai/app

作者系网易新闻·网易号“各有态度”签约作者


—  —

<NVIDIA图像处理公开课·第二期> 开始报名啦,下周四晚8点,英伟达专家将分享如何利用TensorRT 7.0部署高速目标检测引擎。

戳二维码,备注“英伟达”即可报名、加交流群、获取第一期直播回放,主讲老师也会进群与大家交流互动哦~ 

直播报名 | 图像与视频处理系列课程

在家学编程 | 柯基编程双师互动课

如何提升少儿的逻辑思维、计算思维能力?
编程学习可能是最好选择!炫酷又有趣,有效培养思维习惯。现在报名,只需29元!
快来扫下面的二维码,查看详情:

量子位 QbitAI · 头条号签约作者


վ'ᴗ' ի 追踪AI技术和产品新动态


喜欢就点「在看」吧 !



登录查看更多
0

相关内容

【2020新书】实战R语言4,323页pdf
专知会员服务
100+阅读 · 2020年7月1日
干净的数据:数据清洗入门与实践,204页pdf
专知会员服务
161+阅读 · 2020年5月14日
【干货书】流畅Python,766页pdf,中英文版
专知会员服务
225+阅读 · 2020年3月22日
【资源】100+本免费数据科学书
专知会员服务
107+阅读 · 2020年3月17日
【论文推荐】小样本视频合成,Few-shot Video-to-Video Synthesis
专知会员服务
23+阅读 · 2019年12月15日
手把手教你用Python做一个哄女友神器,小白可上手
网易智能菌
5+阅读 · 2019年6月15日
已删除
将门创投
5+阅读 · 2018年11月15日
使用Keras和LSTM生成说唱歌词
论智
5+阅读 · 2018年5月22日
带你训练一个简单的音频识别网络(附代码)
数据派THU
4+阅读 · 2017年10月9日
用Rasa NLU构建自己的中文NLU系统
待字闺中
18+阅读 · 2017年9月18日
Arxiv
3+阅读 · 2018年12月18日
Arxiv
5+阅读 · 2018年1月23日
Arxiv
5+阅读 · 2015年9月14日
VIP会员
相关VIP内容
【2020新书】实战R语言4,323页pdf
专知会员服务
100+阅读 · 2020年7月1日
干净的数据:数据清洗入门与实践,204页pdf
专知会员服务
161+阅读 · 2020年5月14日
【干货书】流畅Python,766页pdf,中英文版
专知会员服务
225+阅读 · 2020年3月22日
【资源】100+本免费数据科学书
专知会员服务
107+阅读 · 2020年3月17日
【论文推荐】小样本视频合成,Few-shot Video-to-Video Synthesis
专知会员服务
23+阅读 · 2019年12月15日
Top
微信扫码咨询专知VIP会员