CCCF动态：徐文渊 | 海豚音攻击的幕后故事

2018 年 7 月 17 日 中国计算机学会

点击上方“中国计算机学会”轻松订阅!

来源：《中国计算机学会通讯》2018年第7期

智能语音系统的安全问题

随着人工智能的快速发展和应用，智能语音成为一种越来越普遍的人机交互方式，用户只需要通过对话的方式即可控制智能设备进行相应操作，免去了手动输入等方式的繁琐过程。目前，几乎所有的科技巨头都有自己主打的智能语音系统，包括亚马逊的Alexa和Echo、苹果公司的Siri、谷歌公司的Google Assistant、阿里巴巴的天猫精灵、京东的叮咚以及科大讯飞的实时翻译等。然而，人们在享受这些智能语音助手带来的便利的同时，对其中的安全问题却没有给予足够的重视。实际上，与其他产品一样，智能语音系统在软硬件上存在各类安全问题，而且这些安全问题一旦爆发，导致的后果也将非常严重。设想智能门锁如果被小偷控制，家里的防盗门将形同虚设；手机上的语音助手如果被他人控制，手机上的任何App就会被随意运行，乃至与手机绑定的银行卡会自动转账到他人名下，抑或是手机偷偷拨打攻击者的电话，变身成为监听器……

“海豚音攻击”将上述设想变得可行，并不易察觉。首先，“海豚音攻击”绕过智能设备的声纹识别系统，启动智能语音系统；然后，使用人耳听不到的超声波信号，注入控制指令，让被攻击的设备执行相应操作，从而实现包含但不限于上述场景所描述的一系列攻击。

“海豚音攻击”产生的渊源

“海豚音攻击”源于“智能系统安全实验室(USSLAB)”。该实验室依托于浙江大学电气工程学院，秉承电子和计算机相交叉、硬件和软件及算法相结合的研究思路，在物联网、智能电网安全等领域展开研究。USSLAB开辟了模拟态安全（信号在数字化之前的形态）的研究，在自动驾驶汽车安全、可穿戴医疗设备安全、工控PLC安全等一系列物联网垂直方向进行了安全分析和防护，并取得了一系列成果，如两度入选“特斯拉安全研究员名人堂”，获得“Freebuf-WitAwards ¹ 2017年度最佳安全团队奖”等。

USSLAB每周都有两次组会。在小组会上，每个学生汇报自己的工作进度，方便导师把握其研究进展；而在大组会上，每次都会有两名学生讲解发表在国际会议上的优秀论文，还有一名学生围绕一个主题介绍对相关工作的调研。通过大组会，大家可以了解到国内外最新的研究动态，更为重要的是基于会上的讲解进行头脑风暴，可能会产生新的研究思路。“海豚音攻击”正是在一次大组会上激烈的思维碰撞中产生的。

在2016年11月的一次大组会上，张国明同学分享了一篇USENIX SECURITY ²会议上的文章。该论文通过修改语音信号的特征，使得机器学习能够理解并执行该语音命令(hidden voice commands)，但人耳无法听清，从而控制被攻击设备让其“隐秘地”执行相应的恶意操作。虽然这种方法可以实现对智能设备的恶意控制，但攻击声音还是能够被听到并引起用户的察觉，因此攻击的隐蔽性不高。分享结束后，大家对这个工作进行了热烈的讨论。我们能否实现完全静默的攻击？大家纷纷发表看法——如果按照原作者的思路利用机器学习的弱点来做，是做不到让攻击的语音指令达到静默状态（听不到）的。我提出换个思路，从声音信号的原理去思考。于是，我们想到了超声波这个不可听的媒介。但是，又有一个问题——超声波频率太高(>20kHz)，会被智能设备内置的滤波器过滤掉。根据我们之前的研究，我们又想到了硬件非线性作用——调制到高频信号（超声波）的基带信号（攻击声音），通过器件的非线性作用不是正好可以解调出来吗？麦克风也是一种电子器件，那么它肯定也存在非线性作用。从原理上分析可行之后，我们立马做实验进行验证。“海豚音攻击”就这样启动了。

“海豚音攻击”遇到的困难及其影响范围

在“海豚音攻击”可行性验证的过程中，我们遇到了很多困难，实现过程历经周折。我们查阅了大量关于麦克风电路、语音识别算法等软硬件方面的资料之后，选定了ECM（驻极体麦克风）和MEMS（微型机电系统）两种麦克风进行研究，同时购买了麦克风的独立电路和几十种包含麦克风模块的智能设备。超声波的频率范围大，智能设备种类繁多，调制方法也有很多种，因此实验过程中需要控制的变量非常多。最初，我们分别对每个麦克风模块和设备进行实验，但是都没有成功。现在看来，主要原因是没有找对调制频率。考虑到每个麦克风电路的非线性作用差异，各种参数如调制方法、调制频率、调制深度等都要根据不同的麦克风电路进行相应的改变。在经过几个月的尝试，几乎历经绝望准备放弃的时候，我们终于在一台iPhone 4S上看到了攻击成功之后Siri启动的画面。至此，“海豚音攻击”可行性验证终于成功。

之后我们测试了市面上各种智能语音系统，包括苹果的Siri、谷歌的Google Assistant、亚马逊的Alexa、三星的S Voice、微软的Cortana、华为的HiVoice以及一辆搭载语音助手的奥迪汽车。我们一共测试了20余款设备，所有的智能语音系统在“海豚音攻击”面前无一幸免。对于这样的结果，我们之前也没有想到，毕竟麦克风的非线性作用会存在差异。但这说明“海豚音攻击”所利用的麦克风的硬件漏洞，是一种通用的基础性问题，理论上任何包含麦克风电路的设备，都能够被“海豚音攻击”影响，例如录音笔、对讲机、话筒等。因此，我们认为目前已知的受影响设备只是冰山一角。

社会责任感

当然，我们实现“海豚音攻击”的目的不是为了“攻击”，恰恰相反，是为了指导我们如何更好地进行防护。“海豚音攻击”找到并披露这样一个由硬件耦合的系统安全漏洞，揭示了一类新型的模拟态攻击。同时，我们提供了两种分别基于软件和硬件的防护方案，帮助智能设备厂商以及麦克风器件厂家解决这个问题，最终提升整个智能语音系统生态的安全性，为智能语音系统的安全保驾护航。

在发现此安全漏洞之后，我们第一时间向相关机构及厂商进行报告。然而，过程却不是我们预想的那么简单。由于该漏洞的基础性和严重性，我们先后联系了CERT ³和MITRE ⁴，希望能够使用统一的CVE ID ⁵对其进行描述，方便厂商统一进行后续的防护，然而却遭到了拒绝，理由是“CVE要求为可独立修复的漏洞分配不同的ID，建议向CNA列表中的厂商分别索取”。在这个统一方案尝试失败之后，我们只能和各个公司一一进行交流，将问题反馈给他们，并协助进行漏洞的调查和修复工作。目前，华为、三星和Vivo等公司已经派出技术团队，与我们当面进行了交流和讨论，并尝试在后续的软件更新中加入安全防护。

学术影响及行业意义

2017年，在美国达拉斯召开的ACM CCS⁶会议上，我们的论文DolphinAttack:Inaudible Voice Commands在评审阶段获得了高分（一个满分，两个次满分），开会之前“海豚音攻击”就被提名为最佳论文奖候选。我们的论文被安排在会议第一天的上午作口头报告，当时会场座无虚席。在颁奖晚宴上，大会主席Dongyan Xu宣布“海豚音攻击”获得最佳论文，这对于我们来说着实是一个天大的惊喜和一份莫大的荣耀——这是中国的研究人员第一次获得这样的奖项。

“海豚音攻击”不仅获得了业内同行的认可，也得到了国内外许多媒体的关注和报道，包括美国《连线》杂志(Wired)、《麻省理工科技评论》(MIT Technology Review)、BBC、《福布斯》(Forbes)、新华社、人民网、雷锋网等。同时该研究也被评选为浙江大学十大年度学术进展之一，此项成果得到各个领域专家学者的认可。此外，由于“海豚音攻击”的研究对象（手机等智能设备）和普通百姓的生活息息相关，很多人看了报道之后纷纷感叹原来网络安全问题离他们这么近，并关切地询问如何进行防范。我们很欣慰看到这样的结果——“海豚音攻击”启发了普通老百姓对于网络安全问题的思考，从某种程度上提高了大众的安全意识。正所谓，科学研究应该接点儿地气。

脚注

¹ WitAwards年度互联网安全评选活动由国内信息安全新媒体领导者FreeBuf.COM主办，旨在发掘全年卓越的安全产品和杰出人物。

² 国际顶级安全会议。

³CERT（Computer Emergency Readiness Team，计算机安全应急响应组）：专门处理计算机网络安全问题的组织，各国都有组建，例如中国的CNCERT，美国的US-CERT。本文联系的是卡耐基梅隆大学的CERT协调中心。

⁴ MITRE：CVE的核心运营组织。

⁵CVE（Common Vulnerabilities and Exposures，公共漏洞和披露）：一种公开信息安全缺陷和暴露的编号形式，类似漏洞字典。

⁶ACM CCS：ACM Conference on Computer and Communications Security，计算机与通信安全大会，是“四大”安全会议(USENIX SECURITY, IEEE Symposium on Security and Privacy, ACM CCS, The Network and Distributed System Security Symposium)中规模最大的。

作者介绍

徐文渊

• CCF专业会员。

• 浙江大学教授。

• 主要研究方向为无线网络安全、嵌入式系统安全、高可靠性传感器网络、医疗器械安全。

中国计算机学会

微信号：ccfvoice

长按识别二维码关注我们

CCF推荐

【精品文章】

CCCF专题：杨珉 | 走向智能化的网络安全研究

点击“阅读原文”，加入CCF。

登录查看更多

相关内容

语音系统

关注 361

语音系统的应用可以分为两个发展方向：一个方向是大词汇量连续语音识别系统，主要应用于计算机的听写机，以及与电话网或者互联网相结合的语音信息查询服务系统，这些系统都是在计算机平台上实现的。另外一个重要的发展方向是小型化、便携式语音产品的应用，如无线手机上的拨号、汽车设备的语音控制、智能玩具、家电遥控等方面的应用，这些应用系统大都使用专门的第三方软件来实现，特别是近几年来迅速发展的语音信号处理专用芯片（Application Specific Integrated Circuit，ASIC）和语音识别片上系统（System on Chip，SOC）的出现。

【硬核书】理解机器学习：从理论到算法，449页pdf深度理解机器学习

专知会员服务

317+阅读 · 2020年5月28日

【综述】基于图的对抗式攻击和防御，附22页论文下载

专知会员服务

69+阅读 · 2020年3月5日

AAAI 2020 | 南京大学×滴滴：基于弱监督学习的网约车用户体验提升

专知会员服务

15+阅读 · 2020年2月26日

广东疾控中心《新型冠状病毒感染防护》，65页pdf

专知会员服务

19+阅读 · 2020年1月26日