我不是我,我只是我的数据的制造机。
文|孙然 张雨忻
编辑|杨轩
欢迎来到大数据时代。也欢迎来到个人隐私岌岌可危的时代。
作为普通人,你可能对自己的数据被利用到何种境地还缺乏感受。但警觉的内行人,比如网络安全工程师魏从,却感受到了隐私环境的危机四伏。
他至今对去年10月网易邮箱疑似“疑似被黑”的事故印象深刻——过亿条用户名、密码、登陆IP、生日等信息被窃。尽管网易否认数据库遭到攻击,称是黑客获得了部分用户在其他平台相同的账号和密码,撞库所得。但魏从并不相信这种说法,因为他下载分析了这个被盗数据包,发现量特别大,“超大个儿一个。”
他的一个同事有个习惯,每次接到快递包裹,都会用黑色记号笔,逐条划掉快递包裹上的铅字——收货人姓名、联系方式、收货地址等等。她听说小区楼下收废品的人,会把纸箱上的信息单撕下来,转手倒卖出去。不久后这笔数据交易会变成一通推销甚至诈骗电话,再找上门来。
新闻里的“徐玉玉案”令她不寒而栗——因为考生信息被泄露,家境困难的高中毕业生徐玉玉,在接到大学录取通知书后,随即也接到一通电信诈骗电话,被以办理助学金为由骗走9900元学费,伤心欲绝之下,年轻的女孩心脏骤停而亡。
这些事可能发生在每个人身上,平日多做些预防工作总没错。但她不知道的是,无论她划掉多少张快递单,个人信息泄露几乎防不胜防。
“收废品捡快递单的方法效率太low了,现在都直接从淘宝店主那端买发货单,5块钱一张。”魏从告诉36氪。
世界从未变得如此数据驱动。诈骗只是个人数据的一种小范围用途。在大家都在谈论人工智能、个性化推荐、精准营销的现在,世界从未如此渴望知道“你”是谁;从金融,到医疗,广告到电商,各行各业从未像现在这样对数据充满渴求。短短几年,随着市场爆发出的需求量,中国已经催生出市值21亿元的新三板数据服务商数据堂。
大家都意识到了:数据,这是新商业时代最重要的议题。
一位行业内人士透露,为了描述一个用户画像,阿里巴巴构建了741个纬度,来收集数据。“弱数据甚至更多。所有的数据,你买过什么,购买频率和价格,你住在哪,银行里有多少钱,它全知道。”
今年,大公司之间为了争夺数据,爆发了前所未有之多的争斗。运满满举报货车帮盗取6000万条竞争对手货运数据;新浪微博诉脉脉过渡攫取用户数据;腾讯控诉华为Magic手机侵犯用户隐私……过去则少有这样的情况。而两年前,马云说阿里巴巴要做数据公司、未来最大的能源是数据时,还稍显空洞。
商业和用户隐私之间,由此发生激烈对撞。
由于中国数据监管尚且模糊,回国的硅谷技术人才,将中国视为创业天堂。一位从事人工智能+医疗的创业者对36氪说,“算法的门槛并不高,真正稀罕的是用户的医疗数据。在美国,病患数据的归属权是个人,很难拿到,但在国内,只要跟医疗机构合作,就能获取这些数据来训练智能诊疗模型。”
大数据、人工智能改变世界,提升诊断的效率和准确度,这是一幅美好蓝图,唯独忽略了一点:在不知情的情况下,你的隐私医疗数据正从医生电脑里流向一家商业公司。
尽管技术无罪,但商业对数据的贪婪难以克制。利益驱使各种诸如网路爬虫、盗取手机root权限的技术,让个人隐私数据,也前所未有地暴露在市场上。
隐私数据与商业的冲撞是如此激烈,连国家也意识到了。5月和7月,公安部和网信办两次集中审查大数据企业。首批,包括数据堂在内的15家公司被请去“喝茶”,询问数据来源和运营模式。掌握大量个人信息的互联网公司,比如招聘网站,也收到了执法部门的警示。
大数据的交易,一直在黑、白、灰色地带间游走。
我们正生活在楚门的世界,这毫不夸张。
数据的大规模失窃,正在一次又一次出现。
最近的一个大案,是2017年5月至7月间,一伙有组织的黑客盗取了美国征信巨头Equifax的服务器权限,卷走了1.43亿用户的个人隐私数据。这意味着44%美国人的姓名、出生日期、手机号码、住址、SNN(社会安全号码,类似于身份证,可以追踪纳税情况),以及21万美国人的信用卡号,部分驾照号和法律文件,正躺在黑市上待价而沽。
因为保护数据不利,如今悬在Equifax头上的是一桩700亿美元的赔偿官司。
在中国,一个涵盖上千万条京东用户数据的12G数据包,去年底成了黑市上的“地摊货”。知情人士透露,这份数据包囊括了姓名、密码、邮箱、身份证、电话、QQ等多个维度的用户信息。已经在黑市上层层售卖转了上百道手,标价10万至70万不等。
数据泄露不仅来自外部攻击,还源自利益诱惑下的内部泄漏。
今年6月,国内破获的一起案件中,22名苹果及相关公司的员工,利用自己的Apple ID进入公司内部系统,盗取了大量苹果用户的姓名、手机号码、Apple ID等数据,并在黑市以每人10元至180元的价格倒卖出去。
一张苹果内部ID意味着触及公司全部用户数据的权利。据《商业内幕》报道,大量黑客愿支付2万欧元以获取一张苹果内部ID信息。
今年3月,京东主动公布:处于试用期的京东网络工程师郑海鹏,与外部黑客团伙勾结,盗出大量物流、交易及用户身份信息。警方介入后,发现这竟是个“职业内鬼”,曾在多家互联网公司任职,盗窃个人隐私数据达到50亿条。
去年,也有3个来自京东物流部门的“内鬼”,盗走了9313条用户数据,这些信息最后被用于骗取了上百万用户的资金。
隐私数据倒卖远比你想象的猖獗。在已公布的案例中,携程、圆通快递、世纪佳缘、当当网、如家酒店……都曾遭遇过类似的数据洗劫。
大型互联网公司约等于一个又一个肥美的大型数据库。盗取和贩卖隐私则是个产业。
“全世界只有两种网站:被破解的网站,和还不知道自己被破解的网站。”网络安全工程师魏从对36氪说。
魏从这样的行内人,能看到黑色数据的贩卖在“暗网”上持续进行。全球共有7万个网站在暗网上潜伏,你可以在那找到隐私、军火、A片,甚至谋杀教程。尽管卖的都是些惊悚的“货品”,暗网看上去却与普通电商的货架无异。
在暗网上,身份证号、社保账号、电话住址等个人数据被打包售卖,依据详细程度要价不同。
由于数据是可复制的,一旦流入暗网就会被无限转手。从深网,逐渐上浮到卖到表层网络,甚至普通人能接触到的贴吧、网盘。与此同时,数据的价值和标价也层层稀释。一家100人体量互联网公司的用户数据,在暗网上标注的价格可能是1000元,倒过几手后,价格也会稀释到起初的十分之一。
对于有技术的黑客,把几十万人的隐私数据偷出来贩卖只是分分钟的事。他们成团伙作案,顶级的黑客会把入侵工具撒入互联网,自动破解触及到的网站,一扫“中弹”的可能就成百上千。数据得手后会被转给专人破解、加工和整理,在由负责销售的人以不同价格卖给不同的买家。
每时每刻,都有网站被攻破。
疯狂的窃取,驱动自最强烈的需求。
隔三差五,何崇就会接到客户买数据的要求。何崇经营着一家用人工智能技术做精准营销的公司,何崇发现,在移动营销领域想多赚点钱,几乎避不开数据购买,广告主越来越好奇自己的用户都是些什么人,他们希望何崇不仅仅提供算法,也能一站式补全用户数据。
精准营销、人工智能都是大的数据买家。百度一年仅在数据堂购买的语音数据就达到一两千万小时。初创人工智能公司的平均购买量,也动辄在30万至200万小时之间。数据堂创始人齐红威回忆,10年前在实验室训练机器人时,市面上的购买量也不过一两百个小时。
但人工智能底层技术离钱很远,而在互联网金融行业,数据约等同于钱。也因此,“买个人隐私数据最凶的,是金融类企业。”互金公司给何崇开出的补全数据价码最高,是一个人头100块钱。
何崇对36氪介绍,中国的金融信贷公司,大致有三条购买数据的渠道:央行征信中心、有公安背景的征信机构国政通、查学生数据的学信网、以及运营商等国有渠道;第三方大数据服务商;精准营销公司。
白色渠道的数据查询需求已经在急剧增长。据财新报道,2016年,有公安部背景的身份证查询中心,一套带人像照片比对的查询量共约26亿次;而在2012年,年查询量还不到10亿次。查询量激增主要源于大量的消费金融需求。
但在白色渠道外,绝大多数金融机构仍严重依赖来自后两类渠道的数据。因为“白色”渠道能提供的数据有限。以央行征信中心为例,截至去年下半年覆盖中国8.8亿人口的征信数据,这意味着其余5亿人口的信息是一片空白。
这5亿人口,多是蓝领、大学生或刚步入社会的年轻人,尚未在任何银行留下信用记录。与此同时,他们也是如今最时髦的现金贷、消费金融公司、以及陷入转型危机的传统银行紧盯的用户。
现金贷的风险控制方式,正是大数据新时代的典型案例。网贷之家CEO徐红伟告诉36氪,小额贷款的现金贷与传统十几万贷款的风控方式完全不同,后者采用线下尽调,而前者则是完全自动化在线上完成,依赖于智能手机中产生的用户数据和行为轨迹。
借贷给这类高风险人群,最关键是要能收得回帐,预先识别出好人坏人。做好风控模型、预判违约成本,是这门生意最关键的命门,而养模型的前提就是先拿到用户数据。
风控对数据的渴求没有边界:身份证、学历学籍、信用卡和银行卡号、设备指纹、消费情况、LBS数据及手机中的使用行为数据,乃至你银行卡的金额和收支信息。每增加一项数据,坏账就少了一些,利润就多了一些。
出于风险考虑,何崇不愿意自己买数据,他管这叫“脏活”。一般做数据购买的是数据代理商,通常由数据服务公司、咨询公司来扮演。
这些数据服务公司通过自己的门路,找到上游或黑或白的卖家:盗取数据的黑客、通过在APP中植入SDK插件来获取数据的工具类公司、沉淀了大量用户数据的电商公司,甚至想偷偷赚上一笔、有用户系统权限的手机厂商。
据财新报道,一家叫做“联动优势”的公司提供的数据详尽得可怕,包括:个人开卡银行张数、借记卡张数、信用卡卡龄、账龄,近三个月到一年的账动笔数、出入账总金额,银行卡消费总额(包括线上消费)、当前余额、手机号入网年限、手机号是否实名等。一家叫百融金服的公司,产品清单上也有银行卡月度收支数据。
联动优势的关联方公司与运营商长期合作,为十余万家客户提供短信群发服务,包括政府机构、互联网、商业企业、金融保险、银行、物流等。与其有业务往来的人士认为,联动优势加工数据后,“将金融有关的信息,比如银行发给客户的交易信息,卖给金融行业有风控需求的公司,以及贷款催收部门。”
从黑灰色渠道购买,也是为了省钱。“灰色渠道的卖法无非是拷贝一份数据,所以可以卖得很便宜。去白色渠道国政通查询一次身份证需要5块钱,但很多互联网公司其实都掌握了大量的用户数据,开价2毛钱,甚至几分钱就可以查一次。”融之家CEO张建梁告诉36氪。
企业对隐私数据的贪婪和越界获取,终归引发了政府的关注。是6月1日新出台的《网络安全法》,首批打击目标就是黑客、数据交易公司,互联网公司“内鬼”。
根据最高法、最高检的司法解释,“非法获取、出售或者提供行踪轨迹信息、通信内容、征信信息、财产信息50条以上”,即属情节严重,可入刑。
整肃开始了。
今年的网络安全大会,魏从看到台上罕见的出现了“蓝帽子”嘉宾(即公安背景的“黑客”),演讲的核心就是不同程度的盗取数据行为,将受到怎样的法律制裁。
9月的一宗判决起了杀鸡儆猴的作用。地产经纪杨某,因侵犯个人信息罪被法院判决拘役三个月,并处罚4000元人民币。起因是,她通过微信给上级主管发送了113条某小区业主的个人信息。其中包括房产面积、门牌号、楼栋号、楼层、姓名、电话及楼盘名称。这些信息,是她所在的公司准备用来“拉客户”的。
鉴于“买房、借贷、孩子上学”,是中国骚扰电话的永恒的三大主题,个人隐私信息在房产中介圈的疯狂流转,早已成为潜规则,行里人常在QQ群中交换和买卖业主的信息。如今,地产圈风声鹤唳。“现在风声太紧了,前两天刚有同事被抓,”36氪接触的十几位房产中介,皆以太过敏感为由,拒绝了采访。
为了规避政策风险,在《网络安全法》实施前,同盾停掉了“失联人修复”服务。因为这项服务涉及为有的银行提供用户的联系方式,在新规之下颇为敏感。
“过去我们给一些银行提供过这项服务,但对方具有完整的用户授权,”同盾科技副总裁顾威对36氪解释称,“我们并不靠这项边缘业务赚钱,只是为解决客户针对其恶意逾期用户的催款需求。”
据他估计,“至少80%沾染黑产,从事征信和反欺诈数据交易的公司会倒闭。”
灰 :越界
“千万不要说我们是数据交易公司!”36氪接触的三家数据服务商提心吊胆地强调,现在“交易”是个敏感词,如果严格按照新出台的《网络安全法》的定义,“过往的数据交易没有纯白色的”。
大家纷纷强调,自己是做分析整合数据的;而且数据来源都来自客户,而客户在拿数据时,也得拿到用户的授权。
“授权”二字,是区别是否合法的关键。但很多时候,授权合法而不合理,较真来看,也处于灰色地带。
在智能手机不离手的时代,手机和App,让每个人产生的数据大量增加了。
当你在安装一款APP的几分钟空档里,几万字用户协议,隐蔽地在你5.5英寸的手机屏幕上开了个小窗口,你会逐字看,还是快速地按下“同意”?而“不同意”意味着没有APP会为你提供服务。
目前被查处的大多只是存在“明偷明抢”行为的一些公司,而公民个人隐私数据泄露的主要源头在于“暗盗暗窃”,尤其是一些安卓手机里App,越界抓取一些和自身提供给用户的服务功能无关的用户数据。
开源的安卓系统,有五花八门的开发者版本,很多手机厂商并不具备及时升级填补系统漏洞的能力,这给了恶意软件极大的生存空间。猎豹移动安全专家李铁军对36氪称,安卓系统漏洞的修复,往往可能拖延一两年时间,甚至直到使用这个操作系统版本的硬件被市场淘汰,漏洞才会消失。如果恶意软件获得了安卓最底层的root权限,一台手机中的数据就都不是秘密。
在恶意软件之外,APP对用户的数据采集能力,往往是用户的盲区。安装APP时“同意”的用户协议,以及使用过程中APP申请开放的种种权限背后,用户交付了超乎想象的权利。
你的手机中的用户隐私权限,可以划分为Root权限、读取联系人、获取手机号、读取短信记录、读取通话记录、获取用户位置信息、使用话筒录音、打开摄像头等12项。
至于这些获取这些功能权限都能做什么?
举个例子,开启了读取通讯录权限的APP,可以获得用户手机里所有联系人的数据。如果一款APP有上百万级别的用户量,那么能触及到的联系人名单,就有上千万体量。这些数据如果流入黑市,重要联系人的关系链,往往被诈骗分子所利用。
至于APP是否会把权限用于提供服务功能之外,侵犯你的隐私,只取决于它是否“选择”作恶。相应的,一旦点了使用协议的“我同意”按钮,用户就没有什么选择余地。
更令人担忧的,是要求用户授权自身服务不需要的功能权限,即越界采集数据。
DCCI的报告称,2016年,13%的非游戏类APP越界获取位置信息权限;这一数据在教育类APP中格外突出,为26%;9.1%的非游戏类APP越位获取访问联系人权限;甚至有2%的直播APP,越位获取通常手机厂商才有的最底层Root权限。
这种行为在开发者中十分普遍,行业称其为“占坑”。“有的功能是他们目前不需要的,申请下来是为了未来的某个版本可能会涉及到,备用。但更多时候压根就不需要这个功能,他们就是想要一些额外的东西。”李铁军对36氪说。
这些额外的数据不愁没有用武之地。
这大致有三类用途:一类用户精准营销,优化网络广告。拿到数据的APP厂商会对每个用户的数据长期跟踪、持续抓取,甚至出于多多益善的心态,无论是否与自己的服务有关,全抓过来;
一类APP会跟第三方广告网络、游戏推广和电商营销平台合作,通过输出甚至交换、买卖数据赚钱;
第三类APP会接受营销公司、App数据分析公司在自己的应用中潜入SDK,长期采集数据。但用户却不知道,其实自己的数据已经流向了第三方公司。
长久以来,APP的数据猎取生态链,以“合法但不合理”的状态存在着——大量APP用户协议以霸王条款“自说自话”,回避数据的采集情况和具体用途。相对的,用户一方面处于“不知情”的弱势地位。
“基本上这种协议都是不对等的。有些公司的协议里面,写明要收集哪些信息,怎么使用,看完之后会吓一跳。”李铁军说,国外的隐私侵权一般都是集体诉讼,代价高昂,在美国、欧洲甚至部分东南亚地区,对隐私数据侵犯的处罚力度远高于中国。
今年年初,美图秀秀因为一组特朗普的磨皮照片在美国市场迅速蹿红。24小时内冲刺到App Store总榜第55名的位置。
但随即,美图秀秀在舆论上遭遇低谷:大批美国安全专家指出,美图在获取能满足拍摄、编辑、存储的访问相机权限后,还试图获取用户的通信记录、Wifi信息、运营商信息,以及手机唯一的 IMSI 码,这意味着美图将获知你在手机端浏览网页及使用其他APP的信息。
业内人士对36氪称,《网络安全法》落地前后,大量互联网公司的法务部门在紧急重新修订用户协议。
《网络安全法》,要求“网络运营者不得收集与其提供的服务无关的个人信息”。其第四十一条,要求网络运营者“公开收集、使用规则,明示收集、使用信息的目的、方式和范围,并经被收集者同意。”
但“明示”二字,并不那么容易做到。
某大型互联网公司8月份新修订的用户协议中写道:“仅为实现本隐私权政策中声明的目的,我们的某些服务将由我们和授权合作伙伴共同提供。我们可能会与合作伙伴共享您的某些个人信息,以提供更好的客户服务和用户体验。”
这显然是一段非常模糊的表述。
“现在公司都在尽可能让用户同意各种采集数据的情形。包括允许收集数据提供给业务关联方、第三方合作者。模糊的表述涵盖范围越广,它的法律风险就越小。”华东政法大学教授高富平对36氪表示,这种做法在国内现在看似管用,“但在国外,这种泛泛的称可以提供给第三方的说法,早就无效了。”
“技术、算法是没有门槛的。”算话征信CEO蒋庆军毕业于北大数学系,在普通人看来很高级的算法,在他看来,其实有足量的技术人才可以做,没什么稀罕,也构不成竞争门槛,“真正的门槛是数据。”
最近一年,何崇明显感觉生意不好做了。
前不久,他谈了家手机品牌客户。模型已经设计好,到了快签约的环节,单子却被突然杀出来的一家电商巨头夺走了。“因为人家直接就有数据,而我们还在用模型去猜测用户行为,自然没有对方直接准确。”
例如,当该电商公司发现10%的三星手机用户,已经开始浏览华为手机,甚至放进购物车里,它就可以把这部分用户的数据交给三星,让后者由针对性地做营销来挽回老用户。
对何崇而言,这种优势差异是断崖性的。“以往大家还能从各种渠道搞到点数据,现在这些渠道被堵死了,数据生意成了几家巨头垄断的生意。”
而且,要服务大客户就要有大的数据量。“如果客户让你精准营销5万人,匹配度至少要达到80%,才能赚钱。这就要求你有非常大的装机量。”何崇说。
如果如马云所说,数据是这个时代的能源,那么围绕它的石油战争已经打响了。
2月,“新浪微博诉脉脉”成为大数据不正当竞争第一案。起因是脉脉未经授权及未注册的潜在用户许可,就调取了非脉脉用户在新浪微博场景中的头像、职业等用户信息,放在自己的APP上。虽然2013年时脉脉和微博有关于用户数据的合作协议,但脉脉因为还拿走了超出协议范围的教育信息、职业信息和手机号,最终被判赔偿微博200万元。
作为一家起步较晚的社交平台,脉脉从微博“拿”用户数据,显然比自己做要更快更省力。但微博显然不愿意慷这个慨。
大公司对数据资源的把控在收紧。他们还试图把触角伸到对方的地盘,围绕数据的战争由此接二连三地上演。
6月初,阿里系估值500亿元的物流平台菜鸟,和顺丰因为数据掐起来了。菜鸟控诉合作方顺丰,关闭了丰巢自提柜和淘宝平台物流数据的信息回传。顺丰则指责菜鸟,说它越权,索要了顺丰上非淘宝系电商的用户消费数据。
华为和腾讯的数据战争在今年8月爆发。华为的“未来手机”Magic“惊”到了腾讯:当你在微信里跟同事聊起明天要参加某个活动,Magic可以调动手机内应用,根据这个日程为你生成日历。除了基于读取微信和QQ的聊天记录,它还能干很多事:比如为你推荐食品、调动其他APP服务。腾讯大动肝火,指责华为侵犯了用户隐私。
成为科幻电影《Her》式的“手机”,或者说“连接一切”和服务一切的系统,是这两大公司争夺的原因。华为现任轮值CEO徐直军,牵头带队在Magic身上花了6年时间。如果Magic被用户接受,华为就能跳脱出卖硬件的单一模式,成为一家人工智能操作平台。这被看作下一代核心互联网公司该做的事。而这一切的起点,就是先抢数据。
李开复公开称,人工智能领域有“七个黑洞”:美国的 Google、Facebook、Microsoft和 Amazon,还有中国的 BAT。“这对人工智能的发展并不是好现象,反而造成了困扰。因为大量资料(数据)并没有被(他们)分享。”
连政府机构也认识到了,数据正成为行业乃至社会运转的基础。
央行旗下的中国互联网金融,正牵头组建一个叫“信联”的征信机构。它号召芝麻信用、腾讯征信这类个人征信试点机构,和百度、360、网易等互联网公司,共享出自己的数据,央行控股,成员机构依据贡献情况获得股份。两年前,政府原本计划向8家机构发放个人征信牌照,但今年,央行征信管理局却宣布,没有一家合规、能发牌。
不仅巨头们在碰撞中互不相让,国与国之间也在展开数据资源竞赛。一个明显的信号是,新发布的《网络安全法》特意提及了数据跨境问题。
“关键信息基础设施的运营者在中华人民共和国境内运营中收集和产生的个人信息和重要数据应当在境内存储。因业务需要,确需向境外提供的,应当按照国家网信部门会同国务院有关部门制定的办法进行安全评估;法律、行政法规另有规定的,依照其规定。”
这意味着,作为一种有价值的资源,国家希望把数据处于自己的监控之下。
成立5年后,今日头条的估值已经达到110亿美元。这家用数据+算法分发内容的公司,给下一代商业场景做了个示范——“AI+”正在取代“互联网+”,成为下一代商业的基础设施。
既然新闻app能推送你想看的新闻了,广告也越来越精准了,地图和打车App已经能决定你的行车路线了……那下一步,你走进商场,迎宾员叫出你的名字,推荐你有兴趣的商品,或者根据你的信用评分,决定你走贵宾通道还是普通通道,乃至你的手机系统陪你聊天——这些原本科幻电影中想象的未来,看起来也并不遥远。
只是,这一切都需要建立在每个人的数据是自愿提供的基础下,建立在数据使用者有所克制、不去滥用的情况下,建立在违规者被惩罚、不至于劣币驱逐良币的生态下。
只是,在这场数据争夺战里,克制是一项罕见品质。
作为一位混迹网络安全圈多年的“老江湖”,魏从对数据采集者的信心已经所剩无几。他养成了几个习惯:设置涵盖各种符号、大小写的15位密码,复杂到不用专门的密码工具管理自己都记不下来;保证不同账户密码不重叠;每月底逐项核对信用卡账单,防止被黑、盗刷。
然而不久前,他无奈地发现,自己的微博账号还是被盗了。
“你看,我也尽量保护了,但哪里有什么隐私可言呢?”
(应采访对象要求,文中何崇、魏从为化名。36氪作者林渟对此文亦有贡献)
推荐阅读
点击下方图片即可阅读