一个披萨电影夜,你到底泄露了多少个人数据?

2018 年 4 月 26 日 大数据文摘 文摘菌

大数据文摘作品

编译:汪小七、王梦泽、荆浩男


最近Facebook在处理和保护用户数据方面的危机骇人听闻,恐惧的同时也让人们反思,大量的个人数据泄漏到底来自哪里?


本文我们将假设这样一个场景,你和你的朋友(Sally和Kristen)准备度过一个披萨电影夜,让我们用这个常见的场景为例,来评估一下,仅用一个披萨的价格,有多少数据在不知不觉中被共享了。


点击查看大数据文摘相关报道:



计划


首先,Sally拿出她的iPhone X,和她的好友Kristen互发了一些信息。


Sally和Kristen使用Apple iMessage互传短信,由于信息是加密的,所以Apple并不能看到短信的内容。


当信息发送时,苹果公司可以即时捕获并分析像时间戳之类的匿名元数据,这样就可以确保服务器有足够的带宽用于未来的流量。例如当她们两人互发以下信息时:



提供给苹果公司的数据:终端对终端的加密文本、iMessage地址信息。


苹果公司额外收集的数据:匿名时间戳、匿名的消息路由信息。


订单


当Kristen清理她的公寓时,她对她的亚马逊Echo说道:“Alexa,打开Domino’s并下一个订单。”


在Echo上安装的Domino’s应用程序会将Kristen存储的信用卡信息提取出来,然后Alexa会问“你想用尾号为1234的Visa卡吗?”


存储的信用卡信息用来购买批萨。Alexa还记录了交互信息,Domino程序则根据她所说的内容创建了记录。



提供给ALEXA的数据:声音特征、请求内容。


ALEXA额外收集的数据:交互历史、Echo设备类型、位置信息、信用卡号的后四位。


提供给DOMINO的数据:支付和账单信息、购买的披萨种类、订单数量。


DOMINO额外收集的数据:说话记录、硬件设置、操作系统、性能统计数据。


途中


Sally上车后并拿出她的iPhone,打开谷歌地图并设置了去Kristen家的导航。谷歌地图是使用iPhone的传感器来确定她的行驶位置,并利用加速度计和陀螺仪来确定速度与方向。


谷歌收集了她的速度和位置的匿名数据,同时也在收集附近司机的数据,以检测是否堵车。



提供给谷歌的数据:目的地、位置信息。


谷歌额外收集的数据:速度、行驶的主要方向、设备类型(iPhone X)、设备的IP地址、最近的wi-fi路由器、最近的基站。


自拍


Sally和Kristen很久没有见面,于是俩人决定举起手机自拍一张。


Sally上传照片到Facebook后,应用程序会根据面部识别系统建议她给Kristen贴标签,Kristen也同意了这样做。


Facebook可以根据上传照片的IP地址来收集Sally的位置信息,这样可以向她推送她可能感兴趣的同城活动,或者向她推送针对附近某地特定人群的广告。同时系统也会对照片进行分析,以确保没有不恰当的内容。



提供给Facebook的数据:上传的照片、照片配文、面部识别。


Facebook额外收集的数据:照片分析、照片的位置(如果元数据中有此信息)、日期、设备类型(iPhone X)、设备ID、设备操作系统、电池电量、信号强度、蓝牙信号、连接速度、剩余可用空间、应用程序及文件名称和类型、附近的Wi-Fi信号和基站、附近带有投屏功能的智能电视、时区、移动运营商或互联网服务提供商、IP地址、运行的时间、频率和持续时间、硬件版本、软件版本。


电影


Kristen打开Apple TV,搜索并购买了电影《神奇女侠》。之后,Apple会建议Kristen购买其他同类电影,比如《蝙蝠侠大战超人:正义黎明》(Batman v Superman: Dawn of Justice)。在默认情况下,Apple会提供个性化推荐,但用户可以关闭这项设置。


在这个过程中,Apple核对了Kristen的Apple ID,并对账户中预留的信用卡进行扣款,同时它还使用了互联网带宽信息,来确保下载电影速度正常。



提供给苹果公司的数据:选择的电影、Apple ID、信用卡信息。


苹果公司额外收集的数据:互联网带宽信息、购买历史。


数据成本


Sally和Kristen至少贡献出了53条信息,各场景中列出的数据反映了这些公司根据他们的隐私声明、服务条款和相关文件所能收集到的信息。


苹果(Apple)、亚马逊(Amazon)、谷歌、Facebook和达美乐(Domino’s)的隐私条款共计76,069个单词,上述场景中涉及到的隐私条款,若每分钟阅读250个单词,则需要5个小时以上才能全部读完。


数字公民自由组织电子前沿基金会的研究员Gennie Gebhart说:“用户看不见他们丢失了什么,这并不是他们自己的过错。”


这些公司处理数据方式迥异,用途也往往不同。例如,苹果公司经常将用户的信息与用户进行分离,并将其用于改进设备;而Facebook和谷歌则主要使用数据来改善服务并支持他们的广告业务。



隐私政策中还有些什么呢?


根据他们的隐私政策,Sally和Kristen提供的信息仅是科技巨头公司所收集的一小部分。下面是一些数据收集列表,但远远不止这些。(以下内容可上下滑动)


亚马逊收集的数据

在网站输入的信息:名字、电话号码、邮寄地址、信用卡信息、收货人姓名、地址、电话,朋友的电子邮件地址、评论内容、与Amazon的邮件往来内容、个人资料中的个人简介、社会保障账户、驾照号、登录账号及密码、购买历史、浏览历史、IP地址、时区、浏览器类型、浏览器版本、浏览器插件、操作系统、点击流数据、给Amazon致电的电话号码、查看Amazon发来的邮件、页面响应时间、下载错误、访问时长、页面交互(滚动、点击、鼠标悬停)、浏览页面的方法;


APP的使用:位置,设备标识码;


Alexa的使用:姓名、电话号码、联系方式、待办事项,购物清单、音乐播放列表、默认的支付信息、收货信息、语音特征、手机通讯录(如果已导入)、请求内容、交互历史、购买类型、邮编(若你用“Skill”查询过天气)、“Skill”定制音乐电台、辅助产品信息、智能家居设备(类型及名称、功能、状态、网络连接、位置)、语音信息、常用联系人。


亚马逊的说法


“我们的隐私条款描述了我们将要收集的信息以及使用方式。我们从未出售客户的个人信息,我们会在传输和存储时对数据进行加密,并为客户提供多因素身份认证的功能。”



苹果收集的数据

创建苹果ID、购买等行为:姓名邮寄地址、电话号码、电子邮箱地址、联系人偏好、信用卡信息、生日;


使用服务或设备:位置信息、职位、在APP Store的操作、搜索查询服务、手机运营商、语言、国家、邮编、操作系统、浏览器类型、互联网服务提供商、引用的URL、设备唯一标识符、时区、IP地址、打开的苹果电子邮件、朋友或家人信息(姓名、邮寄地址、电子邮箱、电话号码);


苹果媒体服务:所在国家、支付方式、苹果ID、设备活动、位置、内存。


苹果的说法


苹果公司认为企业不应该建立客户的详细资料档案。苹果公司通常会将用户的信息与用户本身进行分离,分离出的信息用于改进公司销售的设备,同样也不会将用户的个人信息出售给广告商。



Domino's收集的数据

用户注册信息:姓名、邮寄地址、电话号码、电子邮件、账单信息、感兴趣的领域、产品消费情况、信用卡信息、密码;


交易信息:位置、购买特性、购买数量、购买价格、语音指令记录、交易时的沟通实体;


使用服务时获取的数据:二级通讯、背景噪音、设备标识符、设备类型、操作系统、浏览器类型、硬件设置、性能统计数据、服务器名称、IP地址、互联网服务提供商、通用地理信息、访问日期和时间、使用网页或应用软件访问的页面、引用的URL、退出URL、交易历史记录、安装字体、Javascript对象、社交媒体的内容(若使用Domino's的标签时)。


Domino's的说法


“我们从数字化订单中收集到的任何客户信息仅用于完成订单或改善客户体验。”



Facebook收集的数据

使用服务时获取的数据:名字、电子邮件地址、共享的内容、浏览的内容、参与的内容类型、评论内容、与他人的信息和交流、与朋友及其帐户和生活事件标签的联系、宗教观点、政治观点、感兴趣的人、健康、种族或民族起源、哲学信仰、工会会员、地址簿(“如果你选择上传、同步或导入”)、调用日志(“如果您选择上传、同步或导入”)、SMS日志历史、联系方式、支付信息、配送信息、手机号码、精确的设备位置、上传的照片和视频、面部识别、设备的设置、信使交流、在Facebook上的行为、与朋友及其帐户标签的互动、使用的功能、使用Facebook产品的时间、照片的位置(如元数据)、日期、活动的频率和持续时间、操作系统、硬件版本、软件版本、电池电量、信号强度、可用的存储空间、浏览器类型、应用程序、文件名和类型、插件、设备行为(鼠标移动、前台或后台的窗口)、设备ID、使用的设备、蓝牙信号、附近的无线网络信标和基站、移动运营商、互联网服务提供商、语言、时区、IP地址、连接速度、附近的设备(带有投屏功能的智能电视)、购买、使用的服务、Facebook上的活动(访问的网站、购买的内容、浏览的广告和使用的服务)、来自第三方数据提供商的在线和离线操作、Instagram活动、朋友对你的评论、朋友与你的联系信息、有你出现的朋友的照片、Facebook搜索查询记录。


Facebook的说法


“我们清楚地知道用户很难找到隐私设置和其他重要的工具,因此我们必须做更多的工作来让人们了解。”



谷歌的数据

注册账户获取的数据:名字、密码、登录账户、电子邮件地址、电话号码、资料中的照片、性别、出生日期、国家;


使用服务时获取的数据:语言首选项、与谷歌服务的交互分析、信用卡信息、联系人、写过的评论、回复的帖子、历史位置信息、地图搜索、行驶速度、行驶方向、语音搜索内容、照片和视频的信息(拍摄的日期、时间、位置信息)、年龄(通过信用卡交易确认)、浏览历史记录、查询日期和时间、搜索历史记录、访问频率、查看和点击的广告、感兴趣的类别、Gmail消息、Gchat即时聊天消息、面部识别、谷歌驱动内容(即文档),YouTube观看历史、主叫用户的电话号码、转发数据、通话历史及内容、通话日期和时间、语音留言、邮件问候语音、通话时长及类型、短信路由信息、IP地址、移动网络信息、操作系统、硬件模式、设备标识符、硬件设置、崩溃报告、浏览器类型、书签、扩展安装、打开的浏览器标签、引用的URL、日程、登录地点、请求的日期和时间、最常联系人、访问链接的IP地址url、网站下载记录、Wi-Fi或手机信号强度。


谷歌的说法


“为了让使用者做出正确的隐私选择,人们能够了解和控制他们自己的谷歌数据是必不可少的。过去的几年为实现这一目标,我们专门开发出了像My Account这样的工具,而且我们鼓励每个人对它进行定期的监督检查。”


在Domino’s的“独立隐私策略”部分中规定,其数据适用于Domino’s的比萨网站、移动端网站、应用程序和通过Domino’s的任何软件平台访问的第三方设备。


原文链接:

https://www.wsj.com/graphics/how-pizza-night-can-cost-more-in-data-than-dollars/


【今日机器学习概念】

Have a Great Definition

志愿者介绍

回复志愿者”加入我们

登录查看更多
0

相关内容

Facebook 是一个社交网络服务网站,于 2004 年 2 月 4 日上线。从 2006 年 9 月到 2007 年 9 月间,该网站在全美网站中的排名由第 60 名上升至第 7 名。同时 Facebook 是美国排名第一的照片分享站点。 2012年 2 月 1 日,Facebook向美国证券交易委员会提交集资规模为 50 亿美元的上市申请。
【ICMR2020】持续健康状态接口事件检索
专知会员服务
17+阅读 · 2020年4月18日
2019必读的十大深度强化学习论文
专知会员服务
57+阅读 · 2020年1月16日
我是怎么走上推荐系统这条(不归)路的……
全球人工智能
11+阅读 · 2019年4月9日
微软小冰:全双工语音对话详解
AI100
7+阅读 · 2019年2月10日
Android P正式发布,你需要尽快做适配了
前端之巅
3+阅读 · 2018年8月7日
无人零售的正确打开方式,到底是什么?
黑智
3+阅读 · 2018年1月22日
这位程序员为什么要弃用Facebook?
CSDN
5+阅读 · 2017年7月14日
我们为什么需要一个时序数据库?
大数据杂谈
3+阅读 · 2017年7月6日
Arxiv
12+阅读 · 2018年9月5日
Arxiv
5+阅读 · 2018年5月22日
Arxiv
7+阅读 · 2017年12月28日
VIP会员
相关VIP内容
【ICMR2020】持续健康状态接口事件检索
专知会员服务
17+阅读 · 2020年4月18日
2019必读的十大深度强化学习论文
专知会员服务
57+阅读 · 2020年1月16日
相关资讯
我是怎么走上推荐系统这条(不归)路的……
全球人工智能
11+阅读 · 2019年4月9日
微软小冰:全双工语音对话详解
AI100
7+阅读 · 2019年2月10日
Android P正式发布,你需要尽快做适配了
前端之巅
3+阅读 · 2018年8月7日
无人零售的正确打开方式,到底是什么?
黑智
3+阅读 · 2018年1月22日
这位程序员为什么要弃用Facebook?
CSDN
5+阅读 · 2017年7月14日
我们为什么需要一个时序数据库?
大数据杂谈
3+阅读 · 2017年7月6日
Top
微信扫码咨询专知VIP会员