苹果公司透露Siri新发音引擎的内部原理

2017 年 9 月 14 日 移动开发前线 薛命灯 译

有没有觉得Siri最近的声音越来越像真人了?苹果公司透露了他们通过深度学习让 Siri 的发音更加自然的内幕。

iPhone 用户使用自然语言向 Siri 提问,Siri 也通过语音回答问题。Siri 可以使用 21 种语言回答问题,遍布全球 36 个国家。在 2017 年 WWDC 大会上,苹果宣布了 iOS 11 上的 Siri 将使用最新的文本语音引擎。2017 年 8 月,苹果的机器学习期刊透露了他们是如何让 Siri 的发音更加自然的。

iPhone 上的语音是通过拼接预先录制的人类语音来生成的。先录制几个小时的语音,再把它们拆分成单词,然后再把单词拆成最基本的元素:音素。在生成句子的时候,系统会选择合适的音素,再把它们拼接在一起。

为音素选择合适的录音是一件很有挑战性的事情。每一个音素都要与发音相匹配,也要与相邻的其他音素相匹配。旧系统只有几种录音,音素的来源很有限,所以听起来有点不自然。于是苹果决定使用深度学习来确定声音单元在句子中的各种属性。

每一台 iOS 设备都包含了一个小型的预录音素数据库。每一份数据都包含了音频属性:声音频谱的音高和音长。一个经过训练的“深度混合密度网络(deep mixture density network)”用于预测每一个音素在句子中的特征。苹果设计了一个成本函数来训练这个网络,着重考虑到两个方面的问题:如何让音素与发音相匹配以及如何让它与句子相融合。

在通过“Viterbi”算法从数据库里找到需要的数据后,系统会选出最佳的音素组合,把它们拼接起来,然后播放出声音。

另一种方式是生成声波,而不是拼接预录的声音。2016 年 9 月,Alphabets Deepmind 发布了 WaveNet 引擎,可以基于电脑生成文本语音。它的不足是速度很慢,就算使用最快的台式电脑也需要很长时间才能完成合成任务。所以,Siri 不会在短时间使用合成语音代替录制语音。

参考链接:

  • https://www.youtube.com/watch?v=yGsbnKkSUFQ

  • https://machinelearning.apple.com/2017/08/06/siri-voices.html

  • https://deepmind.com/blog/wavenet-generative-model-raw-audio/



小编推荐:

想知道第一部Mac是如何被开发出来的?想了解更多苹果公司的工程师文化?想学习硅谷人是如何将产品做到极致的?想领略乔布斯的领导魅力?这本书都能告诉你。点击【阅读原文】即可购买,还有精美书签赠送哦~

登录查看更多
2

相关内容

Siri 是内嵌在苹果公司所推出的智能手机 iPhone 4S 内的人工智能助理软件。该软件使用自然语言处理技术,可通过自然的对话与手机互动,完成搜索资料、查询天气、设置手机日历、设置闹铃等服务。
【机器学习课程】Google机器学习速成课程
专知会员服务
162+阅读 · 2019年12月2日
对话黄学东:语音语言技术是镶在 AI 皇冠上的明珠
微软研究院AI头条
7+阅读 · 2019年5月17日
2018年声音计算“大事记”
人工智能前沿讲习班
8+阅读 · 2019年3月9日
专访 | Recurrent AI:呼叫系统的「变废为宝」
机器之心
11+阅读 · 2018年11月28日
小冰,请接电话!
微软丹棱街5号
5+阅读 · 2018年4月18日
苹果首次披露Siri声纹识别技术
AI前线
6+阅读 · 2018年4月17日
搜狗推出唇语识别技术 提升远场语音交互
智东西
3+阅读 · 2017年12月14日
一文读懂语音识别史
机械鸡
9+阅读 · 2017年10月16日
Neural Speech Synthesis with Transformer Network
Arxiv
5+阅读 · 2019年1月30日
Arxiv
4+阅读 · 2018年5月10日
Arxiv
11+阅读 · 2018年1月11日
Arxiv
23+阅读 · 2017年3月9日
VIP会员
相关VIP内容
【机器学习课程】Google机器学习速成课程
专知会员服务
162+阅读 · 2019年12月2日
相关资讯
对话黄学东:语音语言技术是镶在 AI 皇冠上的明珠
微软研究院AI头条
7+阅读 · 2019年5月17日
2018年声音计算“大事记”
人工智能前沿讲习班
8+阅读 · 2019年3月9日
专访 | Recurrent AI:呼叫系统的「变废为宝」
机器之心
11+阅读 · 2018年11月28日
小冰,请接电话!
微软丹棱街5号
5+阅读 · 2018年4月18日
苹果首次披露Siri声纹识别技术
AI前线
6+阅读 · 2018年4月17日
搜狗推出唇语识别技术 提升远场语音交互
智东西
3+阅读 · 2017年12月14日
一文读懂语音识别史
机械鸡
9+阅读 · 2017年10月16日
Top
微信扫码咨询专知VIP会员