谷歌正在研究能够让计算机合成语音更加自然的技术 | 黑科技

2018 年 3 月 29 日 镁客网 Lotusun


研究通过将人类语音片段嵌入计算机语音风格,来获得重音等效果。


3月28日,据国外媒体报道,谷歌研究院正在探索让机器合成语音更加自然的方法。谷歌大脑机器感知团队的成员本周二在博客中公布了一些能让语音更具有表现力的方法示例。

同时,谷歌发布了“云端文本转语音”服务的测试版,提供了与谷歌助手同样的语音合成服务。该服务采用了DeepMind的WaveNet技术,这个技术可以被用于生成非常自然的声音。

有报道显示,谷歌研究员近期发表了两篇论文,提出了新的发音方法,介绍了如何模仿语音中的重音或语调。这两篇论文的技术都是基于Tacotron2。Tacotron2是谷歌去年12月份推出的人工智能系统,使用神经网络进行训练,模仿人类语音。

Tacotron在大部分情况下都可以模拟真人声音,但是却无法模仿说话中的重音和自然语调。Tacotron的联合发明人Wang Yuxuan参与了其中一篇论文研究。研究通过将人类语音片段嵌入计算机语音风格,使合成语音中实现了重音等效果。另一篇论文的研究则使用无监督训练和识别语音模式,并模仿某些语音风格。

在语音技术研发上,去年苹果Siri被众多消费者认为是更加具有表现力的声音。同时去年四月,亚马逊Alexa面向语音应用开发者提供了SSML标签,在语音助手中增加了更丰富的表达,例如停顿、轻语,以及一些感叹词等。

/- 推荐阅读 -/

 详解Uber自动驾驶汽车传感器系统,什么样的配置才能避免撞人事件! | 镁客网深度

 计算机视觉下一个技术拐点?前端成像或将开启“视觉2.0时代”

 全国仅有617位AI专家,高校开设AI学院能否填补人才缺口? | 镁客网深度

镁客网

科技 | 人文 | 行业
微信ID:im2maker
长按识别二维码关注

硬科技第一产业媒体

提供最有价值的行业观察

登录查看更多
0

相关内容

谷歌公司(Google Inc.)成立于1998年9月4日,由拉里·佩奇和谢尔盖·布林共同创建,被公认为全球最大的搜索引擎。公司总部称为“Googleplex”,位于美国加州圣克拉拉县的芒廷维尤。业务包括互联网搜索、云计算、广告技术等,同时开发并提供大量基于互联网的产品与服务,其主要利润来自于AdWords等广告服务。
机器学习速查手册,135页pdf
专知会员服务
340+阅读 · 2020年3月15日
深度神经网络实时物联网图像处理,241页pdf
专知会员服务
76+阅读 · 2020年3月15日
新时期我国信息技术产业的发展
专知会员服务
70+阅读 · 2020年1月18日
 图像内容自动描述技术综述
专知会员服务
86+阅读 · 2019年11月17日
方兴未艾的语音合成技术与应用
AI100
8+阅读 · 2018年10月16日
苹果首次披露Siri声纹识别技术
AI前线
6+阅读 · 2018年4月17日
搜狗推出唇语识别技术 提升远场语音交互
智东西
3+阅读 · 2017年12月14日
【智能驾驶】史上最全自动驾驶系统解析
产业智能官
23+阅读 · 2017年8月21日
Neural Speech Synthesis with Transformer Network
Arxiv
5+阅读 · 2019年1月30日
Arxiv
8+阅读 · 2018年11月27日
Arxiv
7+阅读 · 2018年9月27日
Learning to Importance Sample in Primary Sample Space
Arxiv
11+阅读 · 2018年1月11日
VIP会员
相关VIP内容
机器学习速查手册,135页pdf
专知会员服务
340+阅读 · 2020年3月15日
深度神经网络实时物联网图像处理,241页pdf
专知会员服务
76+阅读 · 2020年3月15日
新时期我国信息技术产业的发展
专知会员服务
70+阅读 · 2020年1月18日
 图像内容自动描述技术综述
专知会员服务
86+阅读 · 2019年11月17日
相关论文
Top
微信扫码咨询专知VIP会员