你经常调戏的Siri和Alexa，竟如此脆弱地被黑了

2017 年 9 月 13 日 AI100 记得关注

翻译 | AI科技大本营（rgznai100）

参与 | shawn

通过在人类听不到的频率上对他们进行耳语，黑客可以控制世界上最流行的语音助手。

中国的研究人员发现，苹果、谷歌、亚马逊、微软、三星和华为的语音助手都存在着可怕的漏洞。它影响了所有运行Siri的iPhone和Macbook，所有的Galaxy手机、所有运行Windows10的PC，甚至连Amazon的Alexa助手都受波及。

浙江大学的一个研究小组使用了一种叫做海豚攻击的技术，将典型的语音指令转换成超声波频率，这种频率对人类的耳朵来说太高了，根本听不到。但通过麦克风和软件给我们永远在线的语音助手提供能量，这是完全可以解读的。

这是个相对简单的翻译过程，他们用我们听不到的频率发出了几个字，就控制了这个小配件。

研究人员不会仅是通过“嘿，Siri”或者“好的，Google”，他们还可以告诉iPhone拨打1234567890，或者告诉一台iPad来FaceTime拨打号码。他们可以强迫Macbook或Nexus 7打开一个恶意网站，他们可以命令亚马逊Echo打开后门，连奥迪Q3的导航系统也可以被重定向到一个新的位置。“这些听不见的语音指令为常见的设计带来了挑战，因为之前的设计是建立在对手最多试图通过可听见的语音操纵一个语音助手并且可以被警报用户检测到的假设上的。” 该研究小组写了一篇论文，并且刚刚在ACM计算机和通信安全会议上被采纳。

换句话说，硅谷设计了人性化的用户界面，并对其进行了巨大的安全监督。虽然我们可能听不到坏人说话，但我们的电脑显然可以。“从用户体验的角度来看，这感觉像是一种背叛。”非营利组织SimplySecure的设计总监Ame Elliott这样说。“你如何与设备互动的前提是告诉它该怎么做，所以无声的，偷偷摸摸的命令是令人震惊的。”

为了破解每个语音助手，研究人员使用了一款包含3美元额外硬件的智能手机，其中包括一个微型扬声器和amp功能。理论上，他们的方法现在是公开的，任何人只要有一点技术知识就可以操作，只要兜里有几块钱就可以了。在某些情况下，这些攻击只能在几英寸之外进行，不过像Apple Watch这样的小工具在几英尺内就容易受到攻击。从这个意义上说，很难想象亚马逊的Echo会被海豚攻击侵入。

一个想要打开你家后门的入侵者必须先要侵入你家内部，靠近你的回声。但是，破解一部iPhone似乎是小菜一碟，一个黑客只需要在人群中从你身边走过去。他们会把手机拿出来，在你听不到的频率上播放一个命令，你的手机就会在你的手里晃来晃去。因此，也许你不会看到Safari或Chrome加载了一个网站，该网站又运行代码来安装恶意软件，而你手机的内容和通信都是开放的，任由他们去探索。

研究人员在论文中解释说，这一漏洞是由硬件和软件问题的结合而来的。

像Siri、Alexa和GoogleHome这样的语音助手背后的麦克风和软件是可以收集人类听力外围20KHZ以外的无法被听到的声频的。（20 KHz有多高?就在几年前，一种蚊子的手机铃声就在网上疯传，这让那些没有丧失听力的年轻学生在不被老师听到的情况下就可以给他们的朋友发短信）

根据Fitbit这样的产品的创始人和工业设计师Gadi Amit的说法，这类麦克风的设计让他们很难防范这种攻击。麦克风组件本身有不同的类型，但是大多数使用的空气压力可能无法从超声波中被屏蔽。Amit解释说。基本上，当今最流行的麦克风都是将湍流的空气或声波转换成电子波，而阻止这些超级听力的功能是不可能的。

这就意味着，我们需要软件来破译人类的语言和机器的语音。从理论上讲，苹果或谷歌可以命令他们的助手永远不服从来自低于20kHz的数字音频过滤器的命令。“等等，这个人命令我的时候，来自一个他们不可能说话的声音范围！我不打算听他们的”。 但浙江研究人员的发现，每一家主要的语音助理公司都表现出了在20kHz之外发送命令的脆弱性。

为什么亚马逊和苹果会留下如此巨大的漏洞，而这个漏洞可能会被软件轻易地堵住?我们还不知道，不过我们已经联系了苹果、谷歌、亚马逊、微软、三星和华为。但至少有两种理论是完全可信的，这两种理论都是为了让语音助手更加用户友好。

第一个是声音助理实际上需要超声波来听到人们的声音，而不是用那些高频率的声音来分析声音。“请记住，语音分析软件可能需要你的声音中的每一个提示来创建它的理解”， Amit说，“过滤掉我们语音系统的最高频率，可能会有负面影响，会降低整个系统的理解分数。” 即使人们不需要超声波来听别人的声音，也许我们的电脑也会依赖他们。

第二个原因是，已经有公司正在研发通过超声波来改善用户体验，包括手机和配件的通信。最值得一提的是，亚马逊的dash键可以和手机在18Hz的频率上匹配，还有谷歌的Chromecast能通过超声波来匹配。对于终端用户来说，这种匹配方式创造了在电子时代所能期待的最神奇的体验。（它是怎么工作的？谁关心啊，它很神奇就对了！）

但是由于它们工作的时候我们听不见，同样它们发生问题的或者被黑客入侵的时候我们也无法察觉。它们设计的时候就是不可见的。这也就相当于开着一辆引擎没有声音的车子。如果正时皮带坏了，你也只有在汽车停下来时候才发觉，而这时候引擎已经被毁了。用户友好性也带来更多的安全隐患。我们的浏览器很轻松而且隐蔽的收集cookies，市场营销人员可以通过它们在任何角落跟踪到我们。我们的手机会把我们的照片和联系人备份到云上，这会诱使那些专注的黑客来创建一个完整的关于我们私生活的仓库。

每次我们发明一项很好用的技术，都会默认它带来的隐性成本：我们个人的脆弱性。 这个语音指令的研发只是由设计带来的更多的安全漏洞清单中的最新的一个，但也许这是硅谷对崭新事物的安全性不屑一顾的最好例子。

“我认为硅谷在如何不误用产品上存在盲点，这本应该是产品规划时候最强的一部分。”Elliott说。“语音系统很难保证安全，这也会提出问题，很难理解系统是如何工作的，有时候需要反复思考才能设计出来。我觉得必须要经过艰苦的努力才能解开无缝语音，并且思考如何在系统工作中加入更多的可视化。”

目前有一个相对简单的，针对海豚攻击的解决方案。你需要做的只是关掉手机或者平板上的Siri或者谷歌助手的一直打开键，这样黑客就无法给你的手机发送指令了。（除了你正在跟手机说话的时候），同样亚马逊Alexa和谷歌Home都有静音键来摆平大多数这样的小花招（谷歌Home没有被测试，不过理论上讲它也一样易受攻击）。

当然这些解决方案也会弄巧成拙，如果我们能够安全使用语音助手的唯一方法是不让它们听到，那我们研究出语音助手的目的是什么呢？也许这些计算机起初并不存在于我们的生活中，或者公共场合也不会到处都是。

我们已经联系了苹果、谷歌、亚马逊、微软、三星还有华为。如果后续还有故事的话我们会继续更新。

作者| Mark Wilson

Fast公司供职的一位资深作家，他创建了Philanthroper网站，这是他回馈的一个简单方式。

原文地址

http://www.fastcodesign.com/90139019/a-simple-design-flaw-makes-it-astoundingly-easy-to-hack-siri-and-alexa