Google发布云端TTS:借力DeepMind WaveNet技术,语音合成提速1000倍

2018 年 3 月 29 日 AI前线 AI语音合成

作者 | Dan Aharon
译者 | Sambodhi
编辑 | Natalie
AI 前线导读: WaveNet 是 Google DeepMind 最新推出的基于深度学习的原始音频生成模型,能够模仿人类的声音,并让听者难以分辨到底是机器生成的声音还是真人的声音。使人们能够与机器自由交谈是人机交互研究领域长久以来的梦想。3 月 27 号,Google 在 Google Cloud Platform 上推出了云端 TTS(Cloud Text-to-Speech)功能,用户可以很方便地借助它来实现文字转语音的应用,使用时还可以选择由 DeepMind 的 WaveNet 生成的高保真音频。AI 前线翻译了 Google Cloud AI 产品经理 Dan Aharon 写的博文 Introducing Cloud Text-to-Speech powered by DeepMind WaveNet technology,对 Cloud TTS 功能进行进一步介绍。

更多干货内容请关注微信公众号“AI 前线”,(ID:ai-front)

Google 许多产品(如 Google Assistant 语音智能助手、搜索、地图)都内置了高质量的语音合成功能,可以生成非常自然的声音。很多开发人员告诉我们,他们希望在自己的应用中添加语音合成功能,所以我们将这个技术集成到了 Google Cloud Platform 上,谓之云端 TTS。

AI 前线注:Google Cloud Platform 的官网为:https://cloud.google.com/Cloud Text-to-Speech 的官网为:https://cloud.google.com/text-to-speech/在本文中,为行文方便,Cloud Text-to-Speech 简称为云端 TTS。

云端 TTS 的使用方法可以有很多种,例如:

  • 为呼叫中心提供语音应答系统,并启用实时自然语言对话;

  • 让物联网设备(如电视、汽车、机器人)能够与用户交谈;

  • 使用云端 TTS 时,你可以在 12 种语言和语言变体,共 32 种不同的声音中选择。云端 TTS 能够正确地读出复杂的文本,例如姓名、日期、时间和地址。云端 TTS 还可以定制音调、语速和音量增益,并支持多种音频格式,包括 MP3 和 WAV。

应用云端 TTS,你可以从 12 种语言和语言变体中,选择 32 种不同的声音。云端 TTS 能够正确地读出复杂的文本,例如姓名、日期、时间和地址。云端 TTS 还可以定制音调、语速和音量增益,并支持多种音频格式,包括 MP3 和 WAV。

AI 前线注:语言变体是一个内涵很宽泛的概念,大至一种语言的各种方言,小至一种方言中某一项语音、词汇或句法特征,只要有一定的社会分布的范围,就是一种语言变体。语言的变体受到复杂的社会因素制约,社会语言学对语言变体的研究一般认为,讲话人的社会阶级(Class)和讲话风格(Style)是语言变体的重要基础,而讲话人的性别对语言变体也产生重要影响。根据使用者来划分的变体叫方言,根据语言使用来划分的变体叫语体或语域。

尽情享用 DeepMind 新技术吧!

此外,Google 宣布,云端 TTS 还包括使用 WaveNet 构建的高保真语音的选项。WaveNet 是 DeepMind 开发的用于原始音频的生成模型,它能够合成更加自然的语音,普遍看来,相较于其他 TTS 技术,人们更喜欢 WaveNet 合成的音频。

AI 前线注:要了解 WaveNet 可参阅这篇文章:WaveNet: A Generative Model for Raw Audio(https://deepmind.com/blog/wavenet-generative-model-raw-audio/)

在 2016 年末,DeepMind 推出了 WaveNet 的第一个版本,这是一个在大量语音样本中进行训练的神经网络,能够从头开始创建原始音频的波形。在训练过程中,神经网络会提取语音的基本结构,例如,哪些音调会彼此相继,以及真实的语音波形应该具有什么样的形状。当输入给定文本时,经过训练的 WaveNet 模型会生成相应的语音波形,一次一个样本,从而实现比其他方法更高的精度。

快进到今天,我们现在运行在 Google Cloud TPU 基础设施上的是更新后的 WaveNet。改进后的 WaveNet 模型生成原始波形的速度比原来的模型要快 1000 倍,在 50 毫秒内就能生成时长为 1 秒钟的语音。这个新模型不仅速度更快,而且保真度更高,能够以每秒 24000 个样本的速度创建波形。Google 还将每个样本的分辨率从 8 位提到到 16 位,以提高音频质量,使之更加酷似人声。

AI 前线注:欲了解 Google Cloud TPU 的基础设施,可参阅 Cloud TPU machine learning accelerators now available in beta(https://cloudplatform.googleblog.com/2018/02/Cloud-TPU-machine-learning-accelerators-now-available-in-beta.html)。

通过这些调整,WaveNet 的新模型可以生成更为自然的声音。在测试中,人们对新的美式英语口音的 WaveNet 声音进行打分,主观印象评测(mean-opinion-score,MOS)平均得分为 4.1(分数范围为 1~5),这已经比标准声音好 20% 以上了,而且与人类语音的差距减少了 70%。由于 WaveNet 的声音只需要较少的录音音频输入就能生成高质量的模型,因此,Google 期望在未来几个月内,能够继续为云端客户改善 WaveNet 的声音多样性和质量。

云端 TTS 已经帮助多个客户为他们的最终用户提供了更好的体验,这些客户中,包括 Cisco 和 Dolphin ONE。

“作为协作解决方案的领先供应商,Cisco 一贯有将最新的技术进步引入企业的传统。Google 的云端 TTS 让我们得以实现客户们所渴望的自然音质。”

— Tim Tuttle, CTO of Cognitive Collaboration, Cisco

“Dolphin ONE 的 Calll.io 电话平台可在任何位置提供来自多种设备的连接。我们已将云端 TTS 集成到我们的产品中,并允许用户创建自然的呼叫中心体验。通过使用 Google 云端的机器学习工具,我们可以马上将尖端技术交付给我们的用户。”

—Jason Berryman, Dolphin ONE

原文链接:

https://cloudplatform.googleblog.com/2018/03/introducing-Cloud-Text-to-Speech-powered-by-Deepmind-WaveNet-technology.html

如果您喜欢我们的内容,记得给我们「留言」和「点赞」,给编辑鼓励一下!

登录查看更多
3

相关内容

语音合成(Speech Synthesis),也称为文语转换(Text-to-Speech, TTS,它是将任意的输入文本转换成自然流畅的语音输出。语音合成涉及到人工智能、心理学、声学、语言学、数字信号处理、计算机科学等多个学科技术,是信息处理领域中的一项前沿技术。 随着计算机技术的不断提高,语音合成技术从早期的共振峰合成,逐步发展为波形拼接合成和统计参数语音合成,再发展到混合语音合成;合成语音的质量、自然度已经得到明显提高,基本能满足一些特定场合的应用需求。目前,语音合成技术在银行、医院等的信息播报系统、汽车导航系统、自动应答呼叫中心等都有广泛应用,取得了巨大的经济效益。 另外,随着智能手机、MP3、PDA 等与我们生活密切相关的媒介的大量涌现,语音合成的应用也在逐渐向娱乐、语音教学、康复治疗等领域深入。可以说语音合成正在影响着人们生活的方方面面。
Python导论,476页pdf,现代Python计算
专知会员服务
259+阅读 · 2020年5月17日
【陈天奇】TVM:端到端自动深度学习编译器,244页ppt
专知会员服务
86+阅读 · 2020年5月11日
自回归模型:PixelCNN
专知会员服务
26+阅读 · 2020年3月21日
【Google】利用AUTOML实现加速感知神经网络设计
专知会员服务
29+阅读 · 2020年3月5日
阿里巴巴达摩院发布「2020十大科技趋势」
专知会员服务
106+阅读 · 2020年1月2日
【阿里巴巴】 AI编译器,AI Compiler @ Alibaba,21页ppt
专知会员服务
44+阅读 · 2019年12月22日
漫谈语音合成之Char2Wav模型
深度学习每日摘要
8+阅读 · 2017年12月31日
详述DeepMind wavenet原理及其TensorFlow实现
深度学习每日摘要
12+阅读 · 2017年6月26日
TResNet: High Performance GPU-Dedicated Architecture
Arxiv
8+阅读 · 2020年3月30日
AutoML: A Survey of the State-of-the-Art
Arxiv
69+阅读 · 2019年8月14日
Neural Speech Synthesis with Transformer Network
Arxiv
5+阅读 · 2019年1月30日
Arxiv
8+阅读 · 2018年11月27日
Arxiv
3+阅读 · 2018年11月13日
VIP会员
相关VIP内容
Python导论,476页pdf,现代Python计算
专知会员服务
259+阅读 · 2020年5月17日
【陈天奇】TVM:端到端自动深度学习编译器,244页ppt
专知会员服务
86+阅读 · 2020年5月11日
自回归模型:PixelCNN
专知会员服务
26+阅读 · 2020年3月21日
【Google】利用AUTOML实现加速感知神经网络设计
专知会员服务
29+阅读 · 2020年3月5日
阿里巴巴达摩院发布「2020十大科技趋势」
专知会员服务
106+阅读 · 2020年1月2日
【阿里巴巴】 AI编译器,AI Compiler @ Alibaba,21页ppt
专知会员服务
44+阅读 · 2019年12月22日
Top
微信扫码咨询专知VIP会员