数据不能乱用,新的十年,企业为什么要使用数据共享新范式?

2020 年 2 月 15 日 AI科技评论

作者 | 蒋宝尚
编辑 | 贾 伟


欧洲的那本《通用数据保护条例》算是数据隐私保护领域的圣经了。
自2018年5月份实施以来,已经开出上亿美元的罚单。

据不完全统计,在近两年的时间内,因违法GDPR而被开出的罚单规模达到了1.26亿美元,其中最大的一张罚单是由法国政府对谷歌开出的5700万欧元的罚单。
那么如此严格的立法监管在保护我们隐私的同时,让我们损失了什么?

数据隐私保护并不是一蹴而就
在过去十几年中,我们的社会已经习惯了“免费”的网络服务。免费的搜索引擎,免费的电子邮件以及免费的网上视频观看。
当数据能够带来何种价值尚不明确时,这种交易似乎是划算的。
那时的用户们毫不犹豫的选择相信存储他们信息的公司,并尽情享受公司提供的无缝连接的在线体验。
但是随着人工智能的崛起和数据分析能力的大幅度的提升,一些公司可以将用户的“随机轨迹”转换成有价值的见解。
定向营销、基于位置的搜索、个性化促销逐渐成为数据应用的新战场。用户的各种数据不断整合,用户行为粒度不断细化,个人健康风险和选举选择变得更加预测.......
但是,数据作为“新石油”在推动增长和创新的同时,也在一定程度上侵犯了用户的隐私权。例如,当年的剑桥分析事件就是一个典型案例。
事件起因是一组学者收集了大量用户数据,并与剑桥分析公司分享了这些信息,剑桥分析公司是一家商业数据分析公司,据称这家公司在2016年总统选举中用这些方法影响选民。
现在也有事实证明,智能家居也在进一步危害了隐私。例如2019年的4月份,亚马逊智能音箱Echo也被曝出隐私问题;同年7月份,比利时广播公司(VRT)也曝出谷歌聘请的合同工收听人们与谷歌智能音箱的对话录音。
这些隐私问题都在意味着大众对免费数字服务的热情,逐渐转向了对大型科技公司及数据共享做法厌恶。因此数据监管一词应运而生,这也标志着人们对机构的信任度处于历史的最低水平。
大众对立法的呼声越来越高,那么立法是重新恢复秩序的正确方法么?

监管能否恢复信任?

欧美立法者最早接受了监管的挑战,2016年4月27 欧洲通过《通用数据保护条例》,并于2018年5月25日正式生效。
《条例》为欧盟公民带来了一套新的隐私权利。它规定,欧盟消费者将有权知道自己的哪些数据被社交媒体公司保存了下来,并有权要求删除这些数据。新规实施以后,违规公司最高可能面临全球年收入4%的巨额罚款。
但是健全的法律体系保护数据的隐私固然重要,可是也造成了一些意想不到的后果。隐私法规的问题在于:它限制了组织对数据的处理方式,限制各个领域的协作,对经济产生了不利影响,毕竟分工和协作才是人类进步的根源。
另一方面,个人信息保护相关法律的出台直接影响与数据产业相关的公司业务。例如由于于“通用数据保护条例”的提出,QQ国际版于2018年的5月20日后不再为欧洲用户提供服务,QQ国际版本退出了欧洲市场。
Google也因违反反垄断法,被欧盟要求课以史上最贵27亿美元罚金。当时谷歌CEO Sundar Pichai提出警示称:由于裁决,安卓可能不再免费,可能分配模式会变成像它的竞争对手苹果一样。
也就是说,相关数据安全保护措施的出台,使得有些服务我们没有办法享受到了。
所以,欧洲监管了,结果Google被罚,腾讯跑了。法律的出台必然会在某种程度上促进社会和行业的发展,遵守法律和提供更好的服务不是不可兼得的事情。
那么除了监管,还有别的方式来实现共赢么?

超越监管,新技术打破数据孤岛

当前出台的法规显然没有考虑到数字经济环境下的协作机会。
2018年5月美国国立卫生研究院(National Institutes Of Health)关于2型糖尿病的研究暂停。原因是这项研究包括芬兰的健康记录,根据GDPR,欧盟的法律不允许再向美国研究人员提供这些记录。
隐私得到了保护,合作者没有得到分享的数据,大规模数据集没有得到有效利用,医疗技术无法进步。最终付出代价的患者有可能等不到新技术的出现,从而丧失生命。
如果由于数据隐私法规而无法进行合作,从而阻碍我们进步,那么我们的未来是否会发生倒退?
会不会使得企业因为监管丧失知识交流的能力?
如果因为数据隐保护,合作、交流受到了限制。那么我们口中的效率、增长、科学发现以及重大科研创新都可能受到阻碍。

同态加密解决数据传输

幸好,上帝为我们关闭了一扇窗,就在另一个方向打开了一扇窗。同态加密(Homomorphic encryption)作为一种新的隐私增强技术出现了。这种技术可以使组织者无需信任就可以进行协作。
同态加密理论在 1978 年首次推出,被认为是密码学领域的圣杯之一,自其出生以来就像传奇一样遥不可及;直到2009年,IBM的研究人员Gentry才首次设计出一个真正的全同态加密体制,即可以在不解密的条件下对加密数据进行任何可以在明文上进行的运算,使得对加密信息仍能进行深入和无限的分析,而不会影响其保密性。
翻译成“中文”就是:加密算法可以隔着加密层去进行运算。
经过这一突破,存储他人机密电子数据的服务提供商就能受用户委托来充分分析数据,不用频繁地与用户交互,也不必看到任何隐私数据。
即人们可以委托第三方对数据进行处理而不泄露信息。
具体而言,使用同态加密模型,可以保护隐私不受数据处理者身的影响:无法查看正在处理的个人详细信息,只能看到处理的最终结果。企业可以对他们收集的数据感到更加安全。特别是云计算可以从同态加密方案中受益,因为它们可以运行计算而无需访问原始未加密的数据。
在上述提到的糖尿病研究暂停的情况下,同态加密的使用可以缓解高度敏感数据共享的安全问题,并促进重大疾病方面取得宝贵进展。
在网络安全的世界中,可以将“攻击的数据”与相应的组织和政府共享,从而能够在保护数据的机密性的同时,不会违反数据保护法规。

联邦学习解决数据应用

同态加密的运算效率最近取得了重大提升,所以联邦学习就变成可以解决隐私,同时又可以解决小数据、数据孤岛问题的利器。
联邦学习的概念最初由谷歌在2016年提出,在中国,香港科技大学讲席教授、微众银行首席人工智能官(CAIO)杨强教授算是联邦学习研究第一人。
联邦学习可以让参与各方在不披露底层数据的前提下共建模型,之后利用整个数据联邦内的数据资源,提高每个成员的模型表现。
通俗来说,深度学习时代,每个AI企业的技术能力是单打独斗式的;而联邦学习的出现,更为紧密、安全地将各个AI企业联系在了一起,联邦中的每个成员都可以用最快的速度提升自身能力的同时汲取别人的长处,最终获得共同成长。
譬如A厂商有校园数据、B厂商有工厂数据、C厂商有社区数据,且这三家厂商都使用了联邦学习技术。
从业务层面出发,A、B、C这三家厂商便直接获得了两种能力:1、最快速地优化自身业务;2、最快速地拓展新业务。
最快速地优化自身业务表现在,平台每天会有若干个类似A厂商的企业向平台输入加密后的数据模型,而这些数据模型中有A厂商非常缺乏的其他数据信息,而A厂商便可根据这些数据去更新自己的算法模型。
最快速地拓展新业务表现在,A、B、C每家厂商都有各自构建好的模型,通过汇总去得到更大的数据模型,在不流通数据的情况下得到数据流通的最好效果,通过资源互补可以在最短时间内安全地获得对方的能力,去拓展新业务。
从隐私保护层面来看,通常智能摄像头产生的数据会被上传到后台服务器中,然后由部署在服务器上的神经网络模型根据收集到的大量数据进行训练得到一个模型,服务商根据这个模型来为用户提供服务。
这是一种集中式的模型训练方法,这种方式很难保证数据隐私安全。
而联邦学习就不再是让数据发送到后台,而是在每个企业自己的服务器上进行训练,并加密上传训练模型,后台会综合成千上万的用户模型后再反馈给用户改进方案。
相较传统学习模式,联邦学习的优点是显而易见的:
1、在联邦学习的框架下,各参与者地位对等,能够实现公平合作;
2、数据保留在本地,避免数据泄露,满足用户隐私保护和数据安全的需求;
3、能够保证参与各方在保持独立性的情况下,进行信息与模型参数的加密交换,并同时获得成长;
4、建模效果与传统深度学习算法建模效果相差不大;
5、联邦学习是一个闭环的学习机制,模型效果取决于数据提供方的贡献。

在传统的方法下,用户只是人工智能的旁观者——使用,但没有参与;而在联邦学习场景下,每个人都是“驯龙高手”,每个人都是人工智能发展的参与者。
综上所述,现在是围绕信息共享进行范式转变的时候了。当可以不暴露而共享信息,不暴露就可以分析信息时,我们无需为了信任而忍痛放弃协作。
当在数据共享下的协作变的频繁,我们的想象力可以再次释放,那么一些重大问题的解决只是时间的问题。
参考来源:
https://www.weforum.org/agenda/2020/01/new-paradigm-data-sharing/
https://mp.weixin.qq.com/s/Gz6UgBhDIqxA25BSHHfQmA
https://mp.weixin.qq.com/s/HbLyjGFgqzP_P7LeVR1aPQ



点击“阅读原文” 前往 AAAI 2020 专题

登录查看更多
1

相关内容

【复旦大学-SP2020】NLP语言模型隐私泄漏风险
专知会员服务
24+阅读 · 2020年4月20日
2020年中国《知识图谱》行业研究报告,45页ppt
专知会员服务
239+阅读 · 2020年4月18日
【SIGMOD2020-腾讯】Web规模本体可扩展构建
专知会员服务
29+阅读 · 2020年4月12日
新时期我国信息技术产业的发展
专知会员服务
69+阅读 · 2020年1月18日
【德勤】中国人工智能产业白皮书,68页pdf
专知会员服务
301+阅读 · 2019年12月23日
主流互联网平台广告业务对比分析
百度公共政策研究院
29+阅读 · 2019年5月20日
Python数据分析案例实战
炼数成金订阅号
5+阅读 · 2019年5月9日
【专题】美国隐私立法进展的总体分析
蚂蚁金服评论
11+阅读 · 2019年4月25日
【专题】Facebook遭德国反垄断调查及其影响分析
蚂蚁金服评论
17+阅读 · 2019年4月1日
战略|咨询公司在中国的困境与出路
智慧云董事会
16+阅读 · 2019年3月13日
微软开源项目提供企业级可扩展推荐系统最新实践指南
微软研究院AI头条
4+阅读 · 2019年2月25日
2017企业阵亡最全名单公布
小饭桌
6+阅读 · 2018年2月28日
【社交网络】一文读懂社交网络分析
产业智能官
15+阅读 · 2017年10月14日
Clustered Object Detection in Aerial Images
Arxiv
5+阅读 · 2019年8月27日
Arxiv
5+阅读 · 2019年4月21日
Star-Transformer
Arxiv
5+阅读 · 2019年2月28日
Arxiv
3+阅读 · 2018年6月1日
Arxiv
14+阅读 · 2018年4月18日
Arxiv
8+阅读 · 2018年1月25日
VIP会员
相关VIP内容
【复旦大学-SP2020】NLP语言模型隐私泄漏风险
专知会员服务
24+阅读 · 2020年4月20日
2020年中国《知识图谱》行业研究报告,45页ppt
专知会员服务
239+阅读 · 2020年4月18日
【SIGMOD2020-腾讯】Web规模本体可扩展构建
专知会员服务
29+阅读 · 2020年4月12日
新时期我国信息技术产业的发展
专知会员服务
69+阅读 · 2020年1月18日
【德勤】中国人工智能产业白皮书,68页pdf
专知会员服务
301+阅读 · 2019年12月23日
相关资讯
主流互联网平台广告业务对比分析
百度公共政策研究院
29+阅读 · 2019年5月20日
Python数据分析案例实战
炼数成金订阅号
5+阅读 · 2019年5月9日
【专题】美国隐私立法进展的总体分析
蚂蚁金服评论
11+阅读 · 2019年4月25日
【专题】Facebook遭德国反垄断调查及其影响分析
蚂蚁金服评论
17+阅读 · 2019年4月1日
战略|咨询公司在中国的困境与出路
智慧云董事会
16+阅读 · 2019年3月13日
微软开源项目提供企业级可扩展推荐系统最新实践指南
微软研究院AI头条
4+阅读 · 2019年2月25日
2017企业阵亡最全名单公布
小饭桌
6+阅读 · 2018年2月28日
【社交网络】一文读懂社交网络分析
产业智能官
15+阅读 · 2017年10月14日
相关论文
Clustered Object Detection in Aerial Images
Arxiv
5+阅读 · 2019年8月27日
Arxiv
5+阅读 · 2019年4月21日
Star-Transformer
Arxiv
5+阅读 · 2019年2月28日
Arxiv
3+阅读 · 2018年6月1日
Arxiv
14+阅读 · 2018年4月18日
Arxiv
8+阅读 · 2018年1月25日
Top
微信扫码咨询专知VIP会员