谷歌正在研究能够让计算机合成语音更加自然的技术

谷歌正在研究能够让计算机合成语音更加自然的技术 | 黑科技

2018 年 3 月 29 日 镁客网 Lotusun

研究通过将人类语音片段嵌入计算机语音风格，来获得重音等效果。

3月28日，据国外媒体报道，谷歌研究院正在探索让机器合成语音更加自然的方法。谷歌大脑和机器感知团队的成员本周二在博客中公布了一些能让语音更具有表现力的方法示例。

同时，谷歌发布了“云端文本转语音”服务的测试版，提供了与谷歌助手同样的语音合成服务。该服务采用了DeepMind的WaveNet技术，这个技术可以被用于生成非常自然的声音。

有报道显示，谷歌研究员近期发表了两篇论文，提出了新的发音方法，介绍了如何模仿语音中的重音或语调。这两篇论文的技术都是基于Tacotron2。Tacotron2是谷歌去年12月份推出的人工智能系统，使用神经网络进行训练，模仿人类语音。

Tacotron在大部分情况下都可以模拟真人声音，但是却无法模仿说话中的重音和自然语调。Tacotron的联合发明人Wang Yuxuan参与了其中一篇论文研究。研究通过将人类语音片段嵌入计算机语音风格，使合成语音中实现了重音等效果。另一篇论文的研究则使用无监督训练和识别语音模式，并模仿某些语音风格。

在语音技术研发上，去年苹果Siri被众多消费者认为是更加具有表现力的声音。同时去年四月，亚马逊Alexa面向语音应用开发者提供了SSML标签，在语音助手中增加了更丰富的表达，例如停顿、轻语，以及一些感叹词等。

▲　计算机视觉下一个技术拐点？前端成像或将开启“视觉2.0时代”

▲　全国仅有617位AI专家，高校开设AI学院能否填补人才缺口？ | 镁客网深度

镁客网

科技 | 人文 | 行业

微信ID：im2maker

长按识别二维码关注

硬科技第一产业媒体

提供最有价值的行业观察

登录查看更多

相关内容

谷歌

关注 13

谷歌公司（Google Inc.）成立于1998年9月4日，由拉里·佩奇和谢尔盖·布林共同创建，被公认为全球最大的搜索引擎。公司总部称为“Googleplex”，位于美国加州圣克拉拉县的芒廷维尤。业务包括互联网搜索、云计算、广告技术等，同时开发并提供大量基于互联网的产品与服务，其主要利润来自于AdWords等广告服务。

【干货书】用Python构建聊天机器人，205页pdf，使用自然语言处理和机器学习

专知会员服务

220+阅读 · 2020年6月14日

机器学习速查手册，135页pdf

专知会员服务

345+阅读 · 2020年3月15日

深度神经网络实时物联网图像处理，241页pdf

专知会员服务

78+阅读 · 2020年3月15日