模型参数过亿跑不动？看MIT小哥，少量数据完成高质量文本转语音！ - 专知

会员服务 ·

0

模型参数过亿跑不动？看MIT小哥，少量数据完成高质量文本转语音！

2020 年 3 月 15 日 新智元

新智元报道

来源：fifteen.ai

编辑：白峰

【新智元导读】市面上文本转语音的工具已经很多了，国内的一些厂商也提供了在线的API，但是我们如果需要特定语调的音频还是要自己训练模型，但是传统的深度学习方法需要大量的语料，训练起来又十分消耗资源，有没有替代方案呢？今天我们就来看一款轻量的文本转语音工具。「新智元急聘主笔、编辑、运营经理、客户经理，添加HR微信（Dr-wly）或扫描文末二维码了解详情。」

最近 reddit 上一个文本转语音的 app 火了，它是一家叫做 fifteen.ai 的公司推出的，与传统的深度神经网络文本转语音模型不同，它不需要大量的原始语音数据。

少量训练数据即可生成高保真音频

这个文本语音转换工具，可用于生成各种文本的 44.1 kHz 语音。语音是使用多种音频合成算法和经过定制的深度神经网络实时生成的，这些神经网络是在很少的可用数据上进行训练的（每个角色 30 到 120 分钟之间的纯净音频）。该项目表明，克隆声音所需的音频数量显著减少的同时还能保持角色的情感。

作者提供了一个在线网站，可以方便的转换自己的文本本网站仅用于非商业用途。如果想用于商业用途，只要给出原文链接就好了。

该工具生成的音频文件的采样率为 44100 Hz，而大多数基于深度学习的文本转语音实现，所使用的采样率为 16,000 Hz。所以用它产生的音频，声谱会更详细（更高质量的音频），同时缺陷也更明显。你可以使用其他的音频编辑工具（例如 Audacity）将生成的音频降采样为较低的采样率，让音频显得更像人类，尽管这样做会使音频听起来相对模糊。

如何利用这个工具制作自己的音频

将来我们会对这个工具进行改进，改进之前有个折衷的方法，你可以多生成几次，由于神经网络的不确定性，每次生成的音频都会有些差异，你可以选择自己最满意的。

当然在这么小的语料上训练的模型也是有缺陷的，有些单词可能发音不准确，其实这也很好理解，即使是人，在遇到生词的时候也不一定能准确发音，而传统的深度模型通常有 40 个小时或者更多的语料，所以错误率会低一些。但是这款工具对那些缺乏足够语料的人来说，还是很实用的。

另外作者提到一些 tricks，可以帮忙提高模型的泛化能力。像故意添加一些拼写错误，标点符号，又或是故意扭曲发音，以提高模型的适用性。

“不要指望第一次尝试就会得到完美的音频。要生成令你满意的发音和语调，可能需要不断去尝试。”

我们可以利用这个工具的网页版，生成自己的音频，随机选择一段或者自己输入一段文本，稍等一会点击播放按钮就可以播放了，赶快去试一下吧！

参考链接：

https://fifteen.ai

登录查看更多

0

相关内容

文本转语音

文本转语音

深度学习模型图难画论文难中？这个ML Visual利器帮你快速画出漂亮的模型图,160个模板

深度学习模型图难画论文难中？这个ML Visual利器帮你快速画出漂亮的模型图,160个模板

专知会员服务

900+阅读 · 2022年3月1日

【干货书】用Python构建聊天机器人，205页pdf，使用自然语言处理和机器学习

【干货书】用Python构建聊天机器人，205页pdf，使用自然语言处理和机器学习

专知会员服务

220+阅读 · 2020年6月14日

干净的数据：数据清洗入门与实践，204页pdf

干净的数据：数据清洗入门与实践，204页pdf

专知会员服务

164+阅读 · 2020年5月14日

【综述】用于语音自动处理的深度神经网络综述:从大型语料库到有限数据的调查

【综述】用于语音自动处理的深度神经网络综述:从大型语料库到有限数据的调查

专知会员服务

24+阅读 · 2020年3月9日

Google AI发布Meena-构建一个无所不聊的含26亿参数模型的聊天机器人

Google AI发布Meena-构建一个无所不聊的含26亿参数模型的聊天机器人

专知会员服务

54+阅读 · 2020年1月29日

OpenAI科学家一文详解自监督学习

OpenAI科学家一文详解自监督学习

新智元

18+阅读 · 2019年11月20日

想要训练中文NLP模型却苦于没数据？是时候支持开源中文了

想要训练中文NLP模型却苦于没数据？是时候支持开源中文了

机器之心

7+阅读 · 2019年2月15日

语音合成的里程碑：百度推出首个完全端到端的TTS模型

语音合成的里程碑：百度推出首个完全端到端的TTS模型

论智

7+阅读 · 2018年7月25日

业界 | 百度人机交互新研究：仅用少量样本生成高质量多说话者语音

业界 | 百度人机交互新研究：仅用少量样本生成高质量多说话者语音

机器之心

6+阅读 · 2018年2月21日

机器学习自动文本分类

机器学习自动文本分类

AI前线

23+阅读 · 2018年2月4日

Adversarial NLI: A New Benchmark for Natural Language Understanding

Arxiv

4+阅读 · 2019年10月31日

Text-to-Image Synthesis Based on Machine Generated Captions

Text-to-Image Synthesis Based on Machine Generated Captions

Arxiv

3+阅读 · 2019年10月9日

Sample Efficient Adaptive Text-to-Speech

Arxiv

7+阅读 · 2018年9月27日

Text-to-Clip Video Retrieval with Early Fusion and Re-Captioning

Arxiv

4+阅读 · 2018年4月13日

Bidirectional Attentive Fusion with Context Gating for Dense Video Captioning

Arxiv

5+阅读 · 2018年4月3日

VIP会员

相关主题

文本转语音

麻省理工学院

深度神经网络

相关VIP内容

深度学习模型图难画论文难中？这个ML Visual利器帮你快速画出漂亮的模型图,160个模板

深度学习模型图难画论文难中？这个ML Visual利器帮你快速画出漂亮的模型图,160个模板

专知会员服务

900+阅读 · 2022年3月1日

【干货书】用Python构建聊天机器人，205页pdf，使用自然语言处理和机器学习

【干货书】用Python构建聊天机器人，205页pdf，使用自然语言处理和机器学习

专知会员服务

220+阅读 · 2020年6月14日

干净的数据：数据清洗入门与实践，204页pdf

干净的数据：数据清洗入门与实践，204页pdf

专知会员服务

164+阅读 · 2020年5月14日

【综述】用于语音自动处理的深度神经网络综述:从大型语料库到有限数据的调查

【综述】用于语音自动处理的深度神经网络综述:从大型语料库到有限数据的调查

专知会员服务

24+阅读 · 2020年3月9日

Google AI发布Meena-构建一个无所不聊的含26亿参数模型的聊天机器人

Google AI发布Meena-构建一个无所不聊的含26亿参数模型的聊天机器人

专知会员服务

54+阅读 · 2020年1月29日

热门VIP内容

开通专知VIP会员享更多权益服务

《运用增强现实技术进行军事任务规划》130页

《高压决策环境中的人机协作》200页博士论文

《2025财年美陆军转型倡议（ATI）部队结构与组织提案》

《探索用于低层级任务区分与分类的转址旁路缓冲》

相关资讯

OpenAI科学家一文详解自监督学习

OpenAI科学家一文详解自监督学习

新智元

18+阅读 · 2019年11月20日

想要训练中文NLP模型却苦于没数据？是时候支持开源中文了

想要训练中文NLP模型却苦于没数据？是时候支持开源中文了

机器之心

7+阅读 · 2019年2月15日

语音合成的里程碑：百度推出首个完全端到端的TTS模型

语音合成的里程碑：百度推出首个完全端到端的TTS模型

论智

7+阅读 · 2018年7月25日

业界 | 百度人机交互新研究：仅用少量样本生成高质量多说话者语音

业界 | 百度人机交互新研究：仅用少量样本生成高质量多说话者语音

机器之心

6+阅读 · 2018年2月21日

机器学习自动文本分类

机器学习自动文本分类

AI前线

23+阅读 · 2018年2月4日

相关论文

Adversarial NLI: A New Benchmark for Natural Language Understanding

Arxiv

4+阅读 · 2019年10月31日

Text-to-Image Synthesis Based on Machine Generated Captions

Text-to-Image Synthesis Based on Machine Generated Captions

Arxiv

3+阅读 · 2019年10月9日

Sample Efficient Adaptive Text-to-Speech

Arxiv

7+阅读 · 2018年9月27日

Text-to-Clip Video Retrieval with Early Fusion and Re-Captioning

Arxiv

4+阅读 · 2018年4月13日

Bidirectional Attentive Fusion with Context Gating for Dense Video Captioning

Arxiv

5+阅读 · 2018年4月3日

大家都在搜

分布式事务

蓝牙安全攻防

数字图像处理

滴滴司机调度系统实践

微信扫码咨询专知VIP会员