【数据猿导读】据西雅图当地媒体报道,亚马逊旗下智能音箱产品Echo可能会秘密记录你的谈话内容。国内的智能硬件也越来越普及,尤其是智能家居相关的产品,包括智能音箱、智能摄像机、智能电视、智能空调...你害怕吗?
作者 | 傅志华
官网 | www.datayuan.cn
微信公众号ID | datayuancn
亚马逊的Alexa在国外是非常热门的智能音箱,只需你说出它的唤醒词,比如“Alexa”、“Echo”或“Computer”,它就能对你的声音指令作出响应,比如帮你播放音乐、开灯、关灯等等。但现在这一特性也让人们开始担心自己的隐私。
据西雅图当地媒体报道,亚马逊旗下智能音箱产品Echo可能会秘密记录你的谈话内容,某些情况下,还可能将其发送给其他人。上周,这种事情就发生在位于美国俄勒冈州波特兰市的一个家庭中,放置在室内的Echo记录了用户在家中的谈话,并将此对话发送到了该用户电话联系人列表中的某随机联系人。事发后,该名女子联系了亚马逊,亚马逊回应称该公司“非常重视隐私”,并表示该情况“极其罕见”。在一份声明中,亚马逊把该事件原因归结为其智能语音助手Alexa误判了用户的指令,以为该用户是想发送一段语音给某联系人。
而在今年4月份,来自安全公司Checkmarx的研究人员发现了一种方法,可以让Alexa窃听、记录并发送用户的谈话记录。Checkmarx说他们在4月初通知了亚马逊这个漏洞,亚马逊向CNET的记者证实,目前已经解决了这个问题。在亚马逊的智能音箱Echo产品介绍页面上可以看到这些信息:总是会变得越来越聪明;使用Echo越多,Echo越会适应你的声音模式、词汇以及个人喜好。亚马逊提交的相关专利描述中近一步还提到,未来智能语音设备可识别相关兴趣语句,并针对喜好进行精准广告推送。
国内的智能硬件也越来越普及,尤其是智能家居相关的产品,包括智能音箱、智能摄像机、智能电视、智能空调等等,尤其是最为敏感的智能音箱和智能摄像机,相当于家里装了智能“耳朵”和“眼睛”,如果使用不当,个人隐私会有泄漏的风险。
谷歌提交过相关的专利描述:未来智能家居系统能够监视家庭的一切活动场景,并通过设备获取多种信息,无论是家庭成员对电视节目的喜好,还是他们的卫生习惯,都可以通过这项相关新技术获取。
物联网技术和人工智能技术在给用户带来极大的方便的同时,因其持续的收集相关的个体行为数据,也会给用户的隐私带来潜在的风险。在物联网技术和人工智能时代,如何有效的保障数据安全和个人隐私尤为重要。
个人认为,数据收集和使用方,应该做好大数据全生命周期安全与隐私保护等相关举措:
1、数据采集与传输安全
大数据在采集的过程中需要从源头保证数据采集的安全。数据采集时对数据的安全性进行分级处理以实施不同等级的保护,同时敏感数据要进行加密处理。数据加密技术是最基本的安全技术,是信息安全的核心。它通过变换和置换等各种方法会被保护信息置换成密文(如用哈希函数加密),然后再进行信息的存储或传输,即使加密信息在存储或者传输过程为非授权人员所获得,也可以保证这些信息不为其认知,从而达到保护信息的目的。数据传输的完整性通常通过数字签名的方式来实现。传输安全指在数据的生成、传输和访问过程中,确保数据的完整性、准确性及排他性。
2、数据存储安全
数据存储安全指在数据保存上确保完整、可靠、保密、有效调用,通常包括三层含义:一是存储设备自身的高靠性和高可用性,高靠性指设备故障时,在降级状态下依然能够完成数据存储工作;高可用性是指设备故障时,系统可便利恢复容错能力,走出降级状态。二是保存在存储设备上数据的逻辑安全。三是静态和动态数据加密,对大数据中需要保密的敏感数据,静态数据一般是先加密再存储,动态数据加密常见的一种方法是同态加密。
3、数据挖掘安全
大数据挖掘是从海量数据中提取和挖掘知识,机器学习是大数据挖掘的一种常见应用。大数据挖掘安全也需要做好隐私保护。目前数据挖掘中的隐私保护方法按照策略分为三种,包括数据扰乱法、查询限制法和混合策略法。基于隐私保护的数据挖掘主要集中关联规则挖掘、隐私保护分类挖掘和聚类挖掘、隐私保护的序列模式挖掘等方面。另外,大数据挖掘安全技术方面还需要加强第三方挖掘机构等身份认证和访问管理,以确保第三方在进行数据挖掘等过程中不植入恶意成熟,不窃取系统数据,确保大数据安全。
4、数据发布与应用安全
数据分布与应用安全关键技术包括用户管控安全技术和数据溯源安全防护技术。
第一方面,用户管控安全技术:在数据应用过程中需要对数据用户进行管理和控制,对他们进行身份认证和访问控制,并对他们的安全行为进行审计。在身份认证方面,随着身份认证技术的发展,融合动态口令认证和生物识别技术的强用户认证、基于Web应用的单点登录技术得到广泛应用。大数据用户管控采取的访问控制主要根据访问策略或权限限制用户对资源的访问,通常采用自主访问控制、强制访问控制和基于角色访问控制的组合策略。大数据用户管控的安全审计主要是记录用户一切与系统安全有关的安全活动,通过审查分析发现安全隐患。
第二方面,数据溯源即对数据应用生命周期的各个环节的操作进行标记和定位,在发生数据安全问题是可以准确的定位问题的环节和责任,以便对数据安全问题制定更好的安全策略和安全机制。数据溯源需要在多个分布式系统之间进行数据追踪,通常采用数字水印技术。
5、隐私数据安全
隐私数据包括个人身份信息、人口特征、财产状况、通信内容、社交信息、位置信息等,隐私保护的研究主要集中在如何设计隐私保护原则和算法,既保证数据应用过程中不泄漏隐私,同时又能更好的利用数据的应用。数据匿名化技术是隐私保护技术中的关键技术。包括k-匿名、l-diversity匿名、t-closeness匿名、个性化匿名、m-invariance匿名、基于“角色构成”的匿名和Differential Privacy差分用户隐私等方法,由于篇幅所需,在此重点介绍Differential Privacy差分用户隐私。
苹果在2016 年6 月份的WWDC 大会上就提出了一项名为Differential Privacy 的差分隐私技术。苹果公司软件工程高级副总裁克雷格·费德里吉在WWDC的主题演讲上称:“为了让软件更加智能,我们必须找出不同用户的相同设备使用风格。作为统计学和数据分析领域的研究主题,差分隐私利用了哈希、二次抽样和噪声注入等方式,使在完全匿名的前提下解析个人信息一事成为了可能”。
苹果公司的差分隐私技术值得借鉴,因此,我们重点展开,具体包括:
第一、局部抽样。相对于完整的上传所用用户的资料,苹果公司通过抽样技术采集一部分用户的数据,而不是全部。其假设是某一群用户的行为相对稳定,预期性更强,与其分析每个用户,不如分析典型群体来做行为预测。
第二、哈希加密。如对用户的某些敏感数据,可以先用哈希函数加密。
第三、注入噪音。在采集用户对数据前,向其随机注入一些噪音,如注入符合拉普拉斯分布的数据,那么在对总体数据进行分析时,这些噪音并不影响结果。
现今,法律也对用户隐私的保护极为重视。2018年5月25日,《通用数据保护规范》GDPR将正式生效。所有收集欧盟(EU)国家公民数据的企业,将必须在明年正式执行有关用户数据保护的严格新规—《通用数据保护规范》(GDPR)。GDPR的目标是保护欧盟公民免受隐私和数据泄露的影响,同时重塑欧盟的组织机构处理隐私和数据保护的方式。根据普华永道的调查数据显示,68%的美国公司预计将花费100万到1000万美元的投入来满足GDPR的合规性要求;另有9%的企业预计将花费超过1000万美元。如果企业没有满足GDPR的合规性要求将导致什么后果?每一单GDPR违规行为将受到高达2000万欧元的严重处罚,或者上一年全球年营业额的4%,以较高者为准。Facebook今年大规模数据泄露事件,就是未经用户允许擅自将收集的到大量用户个人数据提供给了剑桥分析数据公司,Facebook因此事件也受到了法律的制裁。
为了应对GDPR,将欧洲作为重要市场的华为,为了确保有效的落实隐私保护各项要求,华为将通过成立已久的“全球网络安全与用户隐私保护委员会”的保护官,直接向CEO汇报。华为所有业务单元均设置有专职的隐私相关的角色和(或)组织。同时根据GDPR的要求,华为还任命了欧盟数据保护官。
最后,个人建议数据采集和使用企业,一定认真的研究数据安全和保护用户隐私,这样,大数据和人工智能才能更良性的发展。
参考文献:
(1)NIST Big Data Public Working Group. Big Data Security and pirvacy [R]. Gaithersburg: NIST, 2015:5
(2)吕欣,韩晓露,大数据安全和隐私保护技术架构研究,信息安全研究,2016年3月
(3)关于《通用数据保护规范》GDRP详见https://www.eugdpr.org
关于作者
傅志华,数据猿专栏专家,中国信息协会大数据分会理事,北京航空航天大学软件学院大数据专业特聘教授,中科院管理学院MBA企业导师、首都经贸大学统计学兼职教授、研究生导师。曾为360公司大数据中心总经理以及腾讯社交网络事业群数据中心总监以及腾讯公司数据协会会长,在腾讯前为互联网数据分析公司DCCI互联网数据中心副总裁。目前任龙湖集团AI研究院总负责人。
注:投稿请发送邮箱至tougao@datayuan.cn
6月12日,数字资产投资峰会:金融科技区块链支持可持续发展-北京站即将开始,期待我们的见面👆