深度|大数据之殇

2019 年 5 月 7 日 机器人大讲堂


来源: 硅星人


过去几年“野蛮生长”的中国大数据公司,正迎来命运转折的关键时刻。


毫无疑问,作为技术概念的“大数据”拥有光明的前途,它是人工智能的基石,是未来世界的“石油”。但作为生意的“大数据”,在中国正走到一个关键的转折点。


从业者都很焦虑。对大众来说,2019年3月以来,围绕着“大数据”而密集发生的丑闻似乎是一种监管加紧的信号——前有“315”晚会上集中曝光的大数据黑色产业链,后有号称拥有8亿国人真实信息的“大数据公司”——巧达科技被查。但对于一向嗅觉灵敏的中国大数据行业的从业者们来说,这并不突然。


从2017年底开始,中央网信办、工信部、公安部和国家标准委等部门就开始密集合作,针对国内大数据行业野蛮生长中的各种乱象展开各种行动。进入2018年,相关工作组先后多次对微信和淘宝等“国民级”应用进行隐私保护评估,提出整改意见。同时,重点垂直行业和地方监管机构也明显提高了约谈频率。2019年2月,银监会和保监会约谈银行高管,谈及app收集信息的问题;上海网信办连续约谈辖区内应用程序,而北京市公安部门也在“净网2019”行动中将“非法爬取数据”作为整治重点。


在PingWest品玩与近10名来自大型互联网公司数据部门以及“大数据公司”的从业者的接触中,他们普遍认为,315晚会“抓典型”和“巧达数据”被整治,更像是一系列行动的结果,而非开始。


“其实能感受到所有的环境都跟两年前不同了,美国有Facebook出的事,欧洲又有GDPR(《通用数据保护条例》(General Data Protection Regulation,简称GDPR,为欧盟条例——PingWest品玩注),以前觉得这都不影响我们国内的业务,但去年以来一扭头却发现,国内管得也更严了。”一家总部在杭州的电商公司相关数据算法部门的团队高层对PingWest品玩说。


然而,无比焦虑的从业者们似乎仍然没有意识到,监管层面的变化背后,本质还是国内广大用户们数据隐私意识的觉醒。


“我们最近的政策法规研究以及行动的节奏很大程度是受到大众对隐私保护的意识觉醒的影响。”一名接近公安第三研究所网络安全法律研究中心的人士对PingWest品玩透露。他们正参与到多部委联合推进的个人信息保护法律法规研究中。3月上线的“App 个人信息举报”微信公号投诉平台,某种意义上就是在帮助法规制定者们更直接的感受大众的态度。新华社的一篇报道介绍这个公众号处理投诉的方式:“对于用户实名举报的信息,工作组逐一与举报人沟通。”


很明显,在监管者以及广大用户看来,“大数据”在中国作为一门生意,如今在各个环节都已出现必须纠正的问题。



谁的数据,被谁拿走了? 


2018年4月23日晚,北京市公安部门公布了此前“巧达数据”被查案件的细节。这也与PingWest品玩与多位从业者探讨时的判断接近:一家被巧达数据爬取过简历数据的公司,向公安举报了巧达。之后北京警方在数个月的调查取证后,将其作为”净网2019“行动中的典型,予以处理并拘捕了公司实际控制人。


图片来源:北京市公安局海淀分局公众号


根据警方通报:“嫌疑人通过利用大量代理IP地址、伪造设备标识等技术手段,绕过该公司服务器防护策略,大量窃取存放在服务器上的用户数据…… 经初步查明,巧达科技公司采用技术手段在未经授权的情况下,恶意窃取上述报案公司的用户数据,并将其用于自身经营。”


也就是说,巧达的问题首先出在其过激的“爬虫”行为上。


“爬虫”指的是开发者设计一套程式让它按照一定规则,自动抓取互联网上的海量信息。一位曾在巧达数据短暂工作的员工对PingWest品玩表示,他们的团队有不少来自主流招聘平台的员工,他们往往对前公司的系统比较熟悉,能够更高效地爬取平台上的简历,在反爬虫措施出现之前完成足够多的抓取。


总部在武汉的“简寻”,同样主打爬取公开简历的生意,其官网显示“产品可通过自然语义处理的技术爬取简历”,实质也是通过爬虫技术爬取几家主要的招聘网站,这家公司在去年完成千万级A轮融资。


此外从事类似生意的创业公司还有很多,多数处于天使轮阶段。


“从这个角度看,巧达数据像是被当作典型给抓了。或者也是因为它做的太大了。”上述员工说。


此外,虽然此次的公告中没有提及,但据PingWest品玩了解,巧达数据还涉及购买“非法获取的数据”的问题。上述员工对PingWest品玩透露:他多次参与过团队在一些业务领域的竞标活动,也就是多家“大数据公司”竞争同一个服务客户,尝试为其提供数据分析等服务。而在竞标前,他们往往会密集从黑市上买进大批数据。


“巧达自己有许多接口能拿到简历,并不会将大部分精力放到撞库等做法上。但那些数据中介可就不是了,他们每天就是撞库,什么数据都有。”


“所以,当你看到最后这些公司花了多少钱买来这些高度隐私的真实数据时,其实价格已经翻了几倍,而且这些数据只是露出水面的冰山一角,下面藏着的被获取和交易的数据,隐私和敏感度还要更高。”


这种生意随着“精准营销”和“个性推送”的走红而需求大增,一些“明星公司”也开始做起类似的生意。最典型的当属新三板上市的数据公司“数据堂”。


这种事实上违法的获取方式,在这些大数据公司的PPT中,摇身一变以“外部购买”的名义暧昧呈现。“其实业内的人都知道这是什么意思,你能从哪买啊,最大的数据要么就在BAT手里,人家没必要卖给你赚这点钱,要么在政府手里,不会卖给你。你能买到的有用的数据,就只有那些渠道。”



爬虫的问题在美国互联网界也屡屡成为争议的焦点,其中《1986年计算机欺诈与滥用法》(CFAA)是经常被援引的条款。CFAA规定,未经授权及超过授权故意访问计算机,并从有保护的计算机获取信息,都构成犯罪。严重者甚至可能是刑事犯罪。


研究个人信息数据保护的公众号“Martin的读书笔记”在分析这些爬虫判例时认为:美国对爬虫“正在慢慢突破合同法思维和CFAA的限制,开始更多考量公共利益的优先性。”


但仔细观察这些案例会发现,无论是在国内的案例还是美国案例中,更多的关注点在于平台之间的数据归属争议,却往往有意无意回避了一个更重要的问题:在平台彼此争夺数据归属的背后,真正产生数据的用户对数据的归属拥有怎样的权利?


要回答这个问题,就需要弄明白用户的数据究竟是如何被互联网公司获取的。



用户知情权与“低隐私社会”之争 


“如果需要,其实我们可以还原你使用我们app时在屏幕上的所有操作。”一名总部在上海的O2O公司数据部门相关负责人对PingWest品玩表示。“你先点了哪里后点了哪里,你上下滑动屏幕的速度,你停留在哪个产品时间较久,我们在后台都知道。相当于给你的所有操作录屏,并且传回了我们这里。”


而随着精准推荐的需求越来越高,采集数据的需求也跟着增加。“到最后,数据采集的埋点越来越多,几乎成了全范围的埋点,管它有用没用都先采集回来再说。”上述O2O公司员工说。而在这样的思路下,许多对用户来说十分敏感的数据信息,也成了采集信息的目标。据两名知情人士对PingWest品玩称,今日头条已经开始采集用户安装应用的列表,用于分析用户的特征。


据了解Talking Data相关业务的人士介绍,其提供的SDK 有能力收集与用户蓝牙配对的其他移动设备的信息,能够收集Android用户设备上的安装程序列表,一方面可以用于借此分析用户的喜好,另一方面也借此统计各类app的市场占有率,后者是其数据分析业务的重要组成。


而近几年,这些公司都开始主打“可视化无埋点SDK”技术,让购买服务的公司可以通过直观的可视化操作页面完成数据采集——“使用者不需要有太多代码知识”。


talking data 为Google play商店版提供的sdk介绍页面


而在电信实名制的当下,想要让ID直接变成真人,只需要一步:当这两个数据与电话号数据对应上时,用户的真实身份就会彻底暴露。


今年315晚会上曝光的“探针盒子”,就是用来完成这最后一步。据央视的调查,这个设备能在发现用户手机信号后,识别出用户手机的MAC地址和IMEI号,并利用背后的“大数据技术”,将这些设备号转换成手机号码。


随着用户被收集的数据种类越来越多,用户的隐私变成了一张拼图,要不要把用户的真实信息“拼”出来,完全取决手握这些拼图的大数据公司们自己。


最近一年,各类公司过度收集用户数据成为整治的重点。据新华社报道,中央网信办、工信部、公安部和市场监管总局在今年年初成立app违法违规收集使用个人信息专项治理工作组,“截至4月16日,举报信息超过3480条,涉及1300余款app。对于30款用户量大、问题严重的app,工作组已向其运营者发送了整改通知。”


这些举动像是一种铺垫,背后是相关部门对个人数据权利的思考。


上述人士表示,在个人数据权利方面,相关部门一直在密切研究欧盟的GDPR,也就是欧盟去年5月开始实行的《通用数据保护条例》,它是全球现行的最严格的数据保护法案。而研究者对其过于严格的监管仍存异议。



“过去的那种宽松,事实上是两方面原因,一是监管跟不上业内的技术;另一个也是因为,监管方面还是有些倾向于管的太严会扼杀创新的观点。”上述人士表示,这种倾向依然会继续存在下去。


“总体上你能看到有两个思路,保证用户隐私肯定是第一位的,二则是,数据只在用户手里是没有价值的,所以还是要鼓励公司对数据的合规处理。”上述人士透露。


在大数据时代,数据的确是拥有巨大潜质的新石油,但若在用户权利和行业发展之间无法正确权衡,这种新石油也一样能带来巨大的污染。

END

加入社群

机器人大讲堂Rob社群开始招募啦!如果您正在从事或想要从事机器人行业、想要学习这一方向,都欢迎您加入我们共同探讨机器人前沿科技。


另外,腿足机器人、医疗机器人、工业机器人专业讨论群正在招募中,欢迎各位专业领域的小伙伴加入。


在机器人大讲堂公众号对话框回复“交流群”获取入群方式!

招募作者

机器人大讲堂正在招募兼职内容创作者和专栏作家

请将简历和原创作品投至邮箱:LDjqrdjt@163.com  

我们对职业、所在地等没有要求,欢迎有兴趣有能力的朋友加入!


看累了吗?戳一下“在看”支持我们吧!


登录查看更多
0

相关内容

专知会员服务
183+阅读 · 2020年6月21日
最新《深度多模态数据分析》综述论文,26页pdf
专知会员服务
298+阅读 · 2020年6月16日
专知会员服务
124+阅读 · 2020年3月26日
新时期我国信息技术产业的发展
专知会员服务
70+阅读 · 2020年1月18日
【德勤】中国人工智能产业白皮书,68页pdf
专知会员服务
303+阅读 · 2019年12月23日
【大数据白皮书 2019】中国信息通信研究院
专知会员服务
137+阅读 · 2019年12月12日
25年,110个经典财务欺诈案例,都在这儿了
虎嗅网
70+阅读 · 2019年8月19日
5G时代:北京移动业务支撑系统 DevOps 实践
DevOps时代
15+阅读 · 2019年6月13日
战略|咨询公司在中国的困境与出路
智慧云董事会
16+阅读 · 2019年3月13日
【大数据】大数据参考架构和关键技术(综合)
产业智能官
14+阅读 · 2018年11月22日
刘强东人设崩了,京东没崩
PingWest品玩
6+阅读 · 2018年11月20日
CCCF专栏 | 联邦学习
中国计算机学会
26+阅读 · 2018年11月19日
大势所趋 | 如何利用大数据做出更好的决策?
今今乐道读书会
4+阅读 · 2018年11月6日
【工业大数据】工业大数据层层深度解析!
产业智能官
3+阅读 · 2018年1月20日
Deep Graph Infomax
Arxiv
17+阅读 · 2018年12月21日
Multi-task Deep Reinforcement Learning with PopArt
Arxiv
4+阅读 · 2018年9月12日
Arxiv
6+阅读 · 2018年2月24日
VIP会员
相关VIP内容
相关资讯
25年,110个经典财务欺诈案例,都在这儿了
虎嗅网
70+阅读 · 2019年8月19日
5G时代:北京移动业务支撑系统 DevOps 实践
DevOps时代
15+阅读 · 2019年6月13日
战略|咨询公司在中国的困境与出路
智慧云董事会
16+阅读 · 2019年3月13日
【大数据】大数据参考架构和关键技术(综合)
产业智能官
14+阅读 · 2018年11月22日
刘强东人设崩了,京东没崩
PingWest品玩
6+阅读 · 2018年11月20日
CCCF专栏 | 联邦学习
中国计算机学会
26+阅读 · 2018年11月19日
大势所趋 | 如何利用大数据做出更好的决策?
今今乐道读书会
4+阅读 · 2018年11月6日
【工业大数据】工业大数据层层深度解析!
产业智能官
3+阅读 · 2018年1月20日
Top
微信扫码咨询专知VIP会员