成为VIP会员查看完整内容
VIP会员码认证
首页
主题
发现
会员
服务
注册
·
登录
0
“Hey Siri” 背后的黑科技大揭秘!
2020 年 4 月 4 日
CSDN
作者 | Vishant Batta
译者 | 苏本如,责编 | 伍杏玲
出品 | CSDN(ID:CSDNnews)
以下是译文:
如今苹果手机可随时检测并回答“Hey Siri”命令,
有人可能会想,
它是不是在随时记录我们的日常生活对话呢?
答案是否定的!
“Hey Siri”能做的并没有我们想象的那么多!
让我们先看看“Hey Siri!”的发展历史吧。
“Hey Siri!”作为预装语音助手Siri的附加功能,于2014年9月在iOS 8中发布。然而,在iOS 9(2015年9月)它升级了,只允许被用来识别用户的个性化语音。
而谷歌助手在2013年之前就已经有了这个功能,但是,在你的屏幕关闭时,它不能支持这个功能。即使是现在,很多安卓手机都不支持这个功能。
让我们来比较一下用户体验,如下图所示:
常规方式 vs.“Hey Siri!”
常规方式是这样的:用户拿起手机 -> 长按home按钮 -> Siri启动。
而在“Hey Siri!”方式下,用户只需说“Hey Siri!”,无需按键,就可以让Siri启动。
这样有一个好处是,因为当用户不方便使用手操作(如开车时),用户也可以使用手机的一些功能。
Siri的前身:M9运动协处理器
“协处理器”可以理解为具有有限功能和电池消耗的辅助处理器,用来支持即使在手机空闲(屏幕关闭)时也可以访问“始终开启”的功能。
M9运动协处理器是苹果协处理器家族的第三代产品,于2015年9月与iPhone 6s一起推出。得益于它基于ARM、64位的A9片上系统所具有的强大的处理能力和微量的电池消耗,这个苹果手机著名的“唤醒”功能才得以实现。M9有时也被人们描述为“嵌入到运动协处理器上的始终在线处理器(AOP - Always on Processor)”
“Hey Siri!”是如何工作的?
当你第一次启用这个功能时,它会提示你说一定次数的“Hey Siri!”。然后你的iPhone将这些声音保存起来,用做将来识别你的个性化声音的“触发键”。
这个个性化的“触发键”保存在协处理器中,即使你的手机处于空闲状态,协处理器也会侦听(而不是听到)落到麦克风上的所有声音。
因此,当声音落在麦克风上,并与“触发键”匹配成功后,协处理器就会激活主处理器开始录音(就像我们长按主屏幕按钮打开Siri一样)。然后,该录音被发送到服务器,并以类似于每个语音助手的过程进行解释。
想象一下这个过程,就好像你拥有数千把钥匙,你正试图找到哪把钥匙正好匹配你要打开的锁。
这里要注意的重要一点是,AOP处理器(A9)总是在“侦听”而不是“听”用户的声音。
它就像一个婴儿,他一直在听人说话,但无法完全处理听到的话,只有在呼唤他的名字时,它才会被触发而开始工作。
M9运动协处理器于2015年9月与iPhone 6s一起发布。但正如本文一开始所说,“Hey Siri!”功能早于2014年9月就已经推出。那么,早期版本的iPhone 是如何能够“被动地”侦听呢?
好吧,如果你碰巧认识一个拥有iPhone 6的人,你可以检查一下“Hey Siri!”。即使你的手机处于空闲状态(屏幕关闭),该功能也只能在充电模式下工作。正如我们可以简单地推断的那样,它仅仅能在充电时获取少量的额外电量。看看下面iPhone 6 Siri的设置截图:
“Hey Siri!”背后的算法
用户的声音会以0.01秒为一帧的单位被采样下来,然后每次将20个这样的帧(0.2秒),连续输入到深度神经网络(DNN),神经网络将这些声音转换为概率密度函数,当该函数值超过最低阈值时,从而激活主处理器。
DNN训练
这里的阈值不是固定不变的,而是根据背景噪声而变化。因此,为了清楚地理解,你可以说DNN每时每刻都在计算阈值。
此外,当第一次记录你的语音样本并生成“触发键”时,实际上是在训练该DNN并定义权重以计算概率。
对于不同的口音,DNN的训练是不同的。例如,“Hey Siri”的发音有点像美国英语中的“Serious”,只是它没有标点符号。而“Hey Siri!”中的“ i”发音长度不同,而且带有一个惊叹号。
“Hey Siri”背后的数学计算
下面的内容是为所有机器学习爱好者准备的:)。
这是深度神经网络(DNN)模型:
DNN模型
总的概率函数如下:
其中:
F(i,t)是模型中状态i的累计分数
q(i,t)是声学模型的输出。这个输出是语音类别的对数分数,它与时间t附近给定语音模式的第i个状态有关
s(i)是和留在状态i相关的开销
m(i)是从状态i继续向后移动的开销
这里的s(i)和m(i)与定义“触发键”时训练的权重相关,可以这样假设:
s(i)- 由“触发键”的单个帧决定,取决于音调、音量等参数。
m(i)- 取决于“触发键”的频率,或简而言之速度,以及s(i)参数改变的大小和快慢。
例如:m(i)和 s(i)对埃米纳姆(Eminem)和阿黛尔(Adele)来说是非常不同的,因为埃米纳姆唱得更快(实际上要快得多),同时变化较小。而阿黛尔唱得更慢些,而且变化更大。
考虑到处理功率和电池消耗,对于协处理器(32层)和主处理器(192层),DNN中的层级大小是不同的。
“Hey Siri!”这项功能虽然没有被广泛宣传,但它却是朝着自动化和提高移动电话易用性迈出的革命性一步。它也可以被视为一个很好的例子,说明一个小小的改变如何对用户体验产生巨大的影响,以及这些小小的革命性改变有时需要进行广泛的研究。
原文链接:https://hackernoon.com/how-does-hey-siri-work-without-your-iphone-listening-to-you-at-all-times-827932do
本文为 CSDN 翻译,转载请注明来源出处。
【END】
热 文 推 荐
☞
微软为一人收购一公司?破解索尼程序、写黑客小说,看他彪悍的程序人生!
☞
瑞幸咖啡自曝虚假交易 22 亿,App 反冲 TOP 1
☞
程序员造轮子的正确姿势
☞
编程基础知识真的是九阳神功吗?
☞
在Kubernetes上部署一个简单的、类PaaS的平台,原来这么容易!
☞
旷视提双边分支网络BBN:攻坚长尾分布的现实世界任务 | CVPR 2020 Oral
☞
2020年,这20个大家都认识的加密交易所过得怎么样?
你点的每个“在看”,我都认真当成了喜欢
登录查看更多
点赞并收藏
0
暂时没有读者
0
权益说明
本文档仅做收录索引使用,若发现您的权益受到侵害,请立即联系客服(微信: zhuanzhi02,邮箱:bd@zhuanzhi.ai),我们会尽快为您处理
相关内容
Siri
关注
113
Siri 是内嵌在苹果公司所推出的智能手机 iPhone 4S 内的人工智能助理软件。该软件使用自然语言处理技术,可通过自然的对话与手机互动,完成搜索资料、查询天气、设置手机日历、设置闹铃等服务。
【2020新书】实战R语言4,323页pdf
专知会员服务
100+阅读 · 2020年7月1日
【干货书】用Python构建聊天机器人,205页pdf,使用自然语言处理和机器学习
专知会员服务
217+阅读 · 2020年6月14日
【2020新书】MySQL 8查询性能调优,974页pdf,一种提高执行速度的系统方法
专知会员服务
69+阅读 · 2020年3月25日
【干货书】流畅Python,766页pdf,中英文版
专知会员服务
225+阅读 · 2020年3月22日
【2020新书】使用Google Dialogflow构建虚拟助手对话机器人,201页pdf
专知会员服务
70+阅读 · 2020年3月19日
深度神经网络实时物联网图像处理,241页pdf
专知会员服务
76+阅读 · 2020年3月15日
【2020必看书】TinyML-微型化机器学习,149页pdf,在超低功耗微控制器上用TensorFlow Lite实现机器学习
专知会员服务
142+阅读 · 2020年2月19日
TensorFlow Lite指南实战《TensorFlow Lite A primer》,附48页PPT
专知会员服务
69+阅读 · 2020年1月17日
【电子书】C++ Primer Plus 第6版,附PDF
专知会员服务
87+阅读 · 2019年11月25日
好玩儿的对话, 微软亚洲研究院 微软小冰首席科学家宋睿华,第八届全国社会媒体处理大会SMP2019
专知会员服务
13+阅读 · 2019年10月24日
微软小冰:全双工语音对话详解
AI100
7+阅读 · 2019年2月10日
王源也推荐!“读诗成曲”游戏火了,思必驰揭秘背后技术
量子位
4+阅读 · 2019年1月29日
AI情绪识别技术背后:一场悄然来袭的“暴政”
大数据文摘
7+阅读 · 2018年10月11日
对话式交互技术原理及流程揭秘
AI前线
5+阅读 · 2018年5月24日
小冰,请接电话!
微软丹棱街5号
5+阅读 · 2018年4月18日
苹果首次披露Siri声纹识别技术
AI前线
6+阅读 · 2018年4月17日
多喝点水,语音的“货”超级干
七月在线实验室
7+阅读 · 2018年1月25日
抖音的 2017 和它背后的黑科技
PingWest品玩
8+阅读 · 2018年1月4日
搜狗推出唇语识别技术 提升远场语音交互
智东西
3+阅读 · 2017年12月14日
新 iPhone 推出的人像光效功能让人惊叹,这都是它的功劳
少数派
3+阅读 · 2017年9月15日
Towards a Human-like Open-Domain Chatbot
Arxiv
14+阅读 · 2020年1月27日
Graph2Seq: Graph to Sequence Learning with Attention-based Neural Networks
Arxiv
7+阅读 · 2018年12月3日
Neural Ordinary Differential Equations
Arxiv
6+阅读 · 2018年10月3日
Sample Efficient Adaptive Text-to-Speech
Arxiv
7+阅读 · 2018年9月27日
Adversarial Structure Matching Loss for Image Segmentation
Arxiv
7+阅读 · 2018年5月18日
Decoupled Novel Object Captioner
Arxiv
7+阅读 · 2018年4月11日
Learning to Guide Decoding for Image Captioning
Arxiv
6+阅读 · 2018年4月3日
Learning to Evade Static PE Machine Learning Malware Models via Reinforcement Learning
Arxiv
3+阅读 · 2018年1月30日
DeepSeek: Content Based Image Search & Retrieval
Arxiv
11+阅读 · 2018年1月11日
SSD: Single Shot MultiBox Detector
Arxiv
4+阅读 · 2016年12月29日
VIP会员
自助开通(推荐)
客服开通
详情
相关主题
Siri
黑科技
iOS 9
iOS 8
DNN
语音助手
相关VIP内容
【2020新书】实战R语言4,323页pdf
专知会员服务
100+阅读 · 2020年7月1日
【干货书】用Python构建聊天机器人,205页pdf,使用自然语言处理和机器学习
专知会员服务
217+阅读 · 2020年6月14日
【2020新书】MySQL 8查询性能调优,974页pdf,一种提高执行速度的系统方法
专知会员服务
69+阅读 · 2020年3月25日
【干货书】流畅Python,766页pdf,中英文版
专知会员服务
225+阅读 · 2020年3月22日
【2020新书】使用Google Dialogflow构建虚拟助手对话机器人,201页pdf
专知会员服务
70+阅读 · 2020年3月19日
深度神经网络实时物联网图像处理,241页pdf
专知会员服务
76+阅读 · 2020年3月15日
【2020必看书】TinyML-微型化机器学习,149页pdf,在超低功耗微控制器上用TensorFlow Lite实现机器学习
专知会员服务
142+阅读 · 2020年2月19日
TensorFlow Lite指南实战《TensorFlow Lite A primer》,附48页PPT
专知会员服务
69+阅读 · 2020年1月17日
【电子书】C++ Primer Plus 第6版,附PDF
专知会员服务
87+阅读 · 2019年11月25日
好玩儿的对话, 微软亚洲研究院 微软小冰首席科学家宋睿华,第八届全国社会媒体处理大会SMP2019
专知会员服务
13+阅读 · 2019年10月24日
热门VIP内容
开通专知VIP会员 享更多权益服务
OpenAI十二天总结与Agent新范式
【伯克利博士论文】高效深度学习推理的全栈方法
【AAAI2025】多层次最优传输用于语言模型中的通用跨标记器知识蒸馏
大规模语言模型增强推荐系统:分类、趋势、应用与未来
相关资讯
微软小冰:全双工语音对话详解
AI100
7+阅读 · 2019年2月10日
王源也推荐!“读诗成曲”游戏火了,思必驰揭秘背后技术
量子位
4+阅读 · 2019年1月29日
AI情绪识别技术背后:一场悄然来袭的“暴政”
大数据文摘
7+阅读 · 2018年10月11日
对话式交互技术原理及流程揭秘
AI前线
5+阅读 · 2018年5月24日
小冰,请接电话!
微软丹棱街5号
5+阅读 · 2018年4月18日
苹果首次披露Siri声纹识别技术
AI前线
6+阅读 · 2018年4月17日
多喝点水,语音的“货”超级干
七月在线实验室
7+阅读 · 2018年1月25日
抖音的 2017 和它背后的黑科技
PingWest品玩
8+阅读 · 2018年1月4日
搜狗推出唇语识别技术 提升远场语音交互
智东西
3+阅读 · 2017年12月14日
新 iPhone 推出的人像光效功能让人惊叹,这都是它的功劳
少数派
3+阅读 · 2017年9月15日
相关论文
Towards a Human-like Open-Domain Chatbot
Arxiv
14+阅读 · 2020年1月27日
Graph2Seq: Graph to Sequence Learning with Attention-based Neural Networks
Arxiv
7+阅读 · 2018年12月3日
Neural Ordinary Differential Equations
Arxiv
6+阅读 · 2018年10月3日
Sample Efficient Adaptive Text-to-Speech
Arxiv
7+阅读 · 2018年9月27日
Adversarial Structure Matching Loss for Image Segmentation
Arxiv
7+阅读 · 2018年5月18日
Decoupled Novel Object Captioner
Arxiv
7+阅读 · 2018年4月11日
Learning to Guide Decoding for Image Captioning
Arxiv
6+阅读 · 2018年4月3日
Learning to Evade Static PE Machine Learning Malware Models via Reinforcement Learning
Arxiv
3+阅读 · 2018年1月30日
DeepSeek: Content Based Image Search & Retrieval
Arxiv
11+阅读 · 2018年1月11日
SSD: Single Shot MultiBox Detector
Arxiv
4+阅读 · 2016年12月29日
大家都在搜
洛克菲勒
自主可控
大规模语言模型
CMU博士论文
技术报告
无人艇
palantir
运筹
图解微积分
社区分享 | 用 PoseNet + TensorFlow.js 在浏览器实现体感游戏
Top
提示
微信扫码
咨询专知VIP会员与技术项目合作
(加微信请备注: "专知")
微信扫码咨询专知VIP会员
Top