模型参数过亿跑不动?看MIT小哥,少量数据完成高质量文本转语音!

2020 年 3 月 15 日 新智元



  新智元报道  

来源:fifteen.ai

编辑:白峰

【新智元导读】市面上文本转语音的工具已经很多了,国内的一些厂商也提供了在线的API,但是我们如果需要特定语调的音频还是要自己训练模型,但是传统的深度学习方法需要大量的语料,训练起来又十分消耗资源,有没有替代方案呢?今天我们就来看一款轻量的文本转语音工具。新智元急聘主笔、编辑、运营经理、客户经理,添加HR微信(Dr-wly)或扫描文末二维码了解详情。


最近 reddit 上一个文本转语音的 app 火了,它是一家叫做 fifteen.ai 的公司推出的,与传统的深度神经网络文本转语音模型不同,它不需要大量的原始语音数据。

少量训练数据即可生成高保真音频

这个文本语音转换工具,可用于生成各种文本的 44.1 kHz 语音。语音是使用多种音频合成算法和经过定制的深度神经网络实时生成的,这些神经网络是在很少的可用数据上进行训练的(每个角色 30 到 120 分钟之间的纯净音频)。该项目表明,克隆声音所需的音频数量显著减少的同时还能保持角色的情感。

作者提供了一个在线网站,可以方便的转换自己的文本本网站仅用于非商业用途。如果想用于商业用途,只要给出原文链接就好了。

该工具生成的音频文件的采样率为 44100 Hz,而大多数基于深度学习的文本转语音实现,所使用的采样率为 16,000 Hz。所以用它产生的音频,声谱会更详细(更高质量的音频),同时缺陷也更明显。你可以使用其他的音频编辑工具(例如 Audacity)将生成的音频降采样为较低的采样率,让音频显得更像人类,尽管这样做会使音频听起来相对模糊。

如何利用这个工具制作自己的音频

将来我们会对这个工具进行改进,改进之前有个折衷的方法,你可以多生成几次,由于神经网络的不确定性,每次生成的音频都会有些差异,你可以选择自己最满意的。

当然在这么小的语料上训练的模型也是有缺陷的,有些单词可能发音不准确,其实这也很好理解,即使是人,在遇到生词的时候也不一定能准确发音,而传统的深度模型通常有 40 个小时或者更多的语料,所以错误率会低一些。但是这款工具对那些缺乏足够语料的人来说,还是很实用的。

另外作者提到一些 tricks,可以帮忙提高模型的泛化能力。像故意添加一些拼写错误,标点符号,又或是故意扭曲发音,以提高模型的适用性

“不要指望第一次尝试就会得到完美的音频。要生成令你满意的发音和语调,可能需要不断去尝试。”

我们可以利用这个工具的网页版,生成自己的音频,随机选择一段或者自己输入一段文本,稍等一会点击播放按钮就可以播放了,赶快去试一下吧!

参考链接:

https://fifteen.ai

登录查看更多
0

相关内容

干净的数据:数据清洗入门与实践,204页pdf
专知会员服务
161+阅读 · 2020年5月14日
深度神经网络实时物联网图像处理,241页pdf
专知会员服务
76+阅读 · 2020年3月15日
【Amazon】使用预先训练的Transformer模型进行数据增强
专知会员服务
56+阅读 · 2020年3月6日
数据标注研究综述,软件学报,19页pdf
专知会员服务
89+阅读 · 2020年2月20日
OpenAI科学家一文详解自监督学习
新智元
18+阅读 · 2019年11月20日
利用神经网络进行序列到序列转换的学习
AI研习社
12+阅读 · 2019年4月26日
基于Tacotron模型的语音合成实践
深度学习每日摘要
15+阅读 · 2018年12月25日
机器学习自动文本分类
AI前线
23+阅读 · 2018年2月4日
构想:中文文本标注工具
炼数成金订阅号
8+阅读 · 2017年11月20日
《构想:中文文本标注工具(附开源文本标注工具列表)
用Rasa NLU构建自己的中文NLU系统
待字闺中
18+阅读 · 2017年9月18日
Arxiv
6+阅读 · 2019年7月11日
Neural Image Captioning
Arxiv
5+阅读 · 2019年7月2日
Arxiv
3+阅读 · 2018年12月18日
Arxiv
8+阅读 · 2018年11月27日
Arxiv
7+阅读 · 2018年9月27日
VIP会员
相关资讯
OpenAI科学家一文详解自监督学习
新智元
18+阅读 · 2019年11月20日
利用神经网络进行序列到序列转换的学习
AI研习社
12+阅读 · 2019年4月26日
基于Tacotron模型的语音合成实践
深度学习每日摘要
15+阅读 · 2018年12月25日
机器学习自动文本分类
AI前线
23+阅读 · 2018年2月4日
构想:中文文本标注工具
炼数成金订阅号
8+阅读 · 2017年11月20日
《构想:中文文本标注工具(附开源文本标注工具列表)
用Rasa NLU构建自己的中文NLU系统
待字闺中
18+阅读 · 2017年9月18日
相关论文
Arxiv
6+阅读 · 2019年7月11日
Neural Image Captioning
Arxiv
5+阅读 · 2019年7月2日
Arxiv
3+阅读 · 2018年12月18日
Arxiv
8+阅读 · 2018年11月27日
Arxiv
7+阅读 · 2018年9月27日
Top
微信扫码咨询专知VIP会员