AI Time | 论道数据共享开放与隐私保护

会员服务 ·

AI Time | 论道数据共享开放与隐私保护

2019 年 7 月 25 日 数据派THU

来源：大数据文摘

本文约3600字，建议阅读10分钟。

我们需要的是灵活的隐私保护和数据共享方案。

[ 导读 ]7月15日，第4期AI Time邀请到了4位重磅嘉宾，就“数据共享开放与隐私保护”这个似乎高深，又与每个人息息相关的话题展开讨论。

7月26日15点，我们将迎来AI Time 第5期 , “论道无人驾驶即将来临还是遥遥无期”，嘉宾包括小马智行联合创始人兼CTO楼天城、清华大学教授邓志东等，欢迎扫下边小程序免费报名。

上周一，在第四期AI Time论坛中，几位嘉宾用“垃圾值不值得快递取决于这包所谓垃圾的价值”类比了“数据是否值得被加密后共享”这个问题。

如何处理数据共享与隐私保护之间的矛盾早已成为了当前数据圈的热议话题，本期“智源-AI Time”邀请到了明略科技集团首席科学家吴信东教授、清华大学计算机系朱小燕教授、清华大学交叉信息研究院徐葳副教授，以及微众银行人工智能部副总经理吴海山博士，共同论道了“数据共享开放与隐私保护”这个似乎高深，又与每个人息息相关的话题。

数据开放的三大必要条件

我们共享位置信息以便预约车的司机找到自己，也暴露了自己的行踪；用浏览纪录调教APP获得更合心意的推荐，也让个人喜好一览无余。开放个人数据的同时，我们冒着暴露隐私的危险，也享受着它带来的便利。

有统计数据显示，每天全世界会上传5亿张图片，每分钟就有20小时的视频被分享，我们整个人类文明所产生的全部数据中有90%是过去两年所产生的。

有人说，发挥数据的价值，主要在流通。的确，数据共享可以使更多的人充分地使用已有数据资源，减少资料收集、数据采集等重复劳动和相应费用，而把精力重点放在开发新的应用程序及系统集成上。但是，要真的让数据流通起来，需要以下这些必要条件：

数据资源的标准化

数据开放共享，首先要做到的就是数据资源的标准化。我们需要解决大规模的、来自多个来源的、异构的数据集成问题，实现海量多元异构数据源的统一管理。

数据质量

数据质量是数据开放共享中需要解决的关键问题。比如，对于数据的发布者来说，怎么样来保证开放的数据没有敏感内容，怎么样保证这个数据是可信的？自动的评估和控制数据质量，是一个关键指标。明略科技集团首席科学家、IEEE Fellow吴信东教授介绍了他最近发表在《软件学报》上的“数据治理技术”论文，强调数据治理包括数据规范、数据清洗、数据交换和数据集成。

开放和共享不等于免费

清华大学计算机系朱小燕教授提到“开放和共享不等于免费”，分配权益，其实也是数据流通的基本动力，必须要保证数据的拥有者，持有者和开发者，都能有满意的权益分配。

清华大学计算机系朱小燕教授

数据共享和开放在产业界的趋势和挑战

根据不同的用法，数据有不同的治理和整理方法。那些使用数据的人，未必是生产数据的人。

清华大学交叉信息研究院徐葳副教授提到，“来自业内的数据可能不如分布在地方政府手里的数据多，但是很多人会明显觉得BAT似乎把数据用的更好。那是因为业内特定领域已经打通了数据并且形成了闭环，他们更清楚数据应该怎么使用，理解根据这些使用需要采集怎样的数据、怎样去对数据进行清洗。”

清华大学交叉信息研究院徐葳副教授

的确，数据必须要流动起来它才能产生价值，否则的话它就是一个孤岛，没有什么太大的价值。数据共享，也需要一个前后背景，以学术研究还是产业应用为前提进行共享，这两者的管理治理完全不一样。

以金融行业为例，微众银行人工智能部副总经理吴海山认为，因为金融行业对数据的应用和管控会更加严格。比如，如果用来投资，被标为非公开信息的数据会被禁止使用。而关于个人用户隐私层面的管控可能更严，在金融领域里面，有一种“另类数据”。它不是类似传统银行财报这样公开的信息，而是一种新型的数据，比如卫星遥感图像、手机上的GPS数据、网站APP下载的数据。这些也可以用来分析一个公司或者一个国家经济层面的运转程度。

现在越来越多的研究层面开始关注，包含用户信息的数据如何在技术场景里使用。为了解决一个工业界的问题，需要训练模型，那如何在不共享数据的情况下进行机器学习呢？

吴海山博士举例解释，“比如用数据去分析用户贷款违约的概率，可能需要A公司电商的数据、B公司社交的数据，但两家公司不可能放心地把数据放到一个平台上，在这种情况下，为了在数据不共享的情况下，依然能够训练机器学习模型，微众银行的首席人工智能官杨强教授提出了联邦学习，它是一种加密的分布式机器学习技术，能够在保护用户隐私的前提下，各个企业的自有数据不出本地，通过加密机制实现参数交换，以一个合法合规的方式去使用数据、训练模型、解决问题。联邦学习是在隐私保护下的机器学习的可实现路径，并为数据孤岛提供了一个解决方案。”

微众银行人工智能部副总经理吴海山

“离开数据服务谈数据隐私都是耍流氓”

机器学习需要大量数据，数据的共享无疑是学界和业界共同期待的，但是数据的共享也离不开对于数据和隐私的保护。

对于用户隐私的保护，几位专家有不同的看法。徐葳教授认为隐私是一种个人感受；吴信东教授认为企业的隐私就是其核心竞争力。

而吴海山博士则认为隐私的背后意味着数据是一种资产，“我们去看病的时候，恨不得把所有的信息都告诉医生，我们买房子贷款的时候，恨不得把以往所有的信息都给银行看，才能让它给你贷款。这个时候数据已经作为一种资产，有一个隐含的定价前提。你得到更好的金融服务，得到更好的企业服务，个性化服务。所以谈任何个人隐私、企业隐私，其背后都有服务和隐私之间的一个平衡，这是在讨论隐私之前需要关注的问题。”

数据加密技术大盘点

大数据生命周期分为数据发布、数据储存、分析和挖掘、数据使用，在这些环节中都存在数据隐私保护的问题。加密是保护数据的一个手段，但是加密之后的数据无法使用。现在的技术需要保证数据在流通使用过程中也不造成泄露，也就是限制数据的使用。

在沙龙现场，几位嘉宾也探讨了目前几种常见的数据加密技术。

差分隐私

差分隐私其实是一种度量方式。通过一群人里算出来的模型，和去除A算出来的是一样的，这样就无从判断A是否还在这群人中，就起到保护A隐私的作用。这个方法对于保护“泯然众人”的数据是有用的，但是却很难保护那些“很个性”的数据，因为这些“个性”的数据对于整体数据的计算印象很大。

安全多方计算

安全多方计算（SMC,Secure Multi-Party Computation）是解决一组互不信任的参与方之间保护隐私的协同计算问题，SMC要确保输入的独立性，计算的正确性，同时不泄露各输入值给参与计算的其他成员。主要是针对无可信第三方的情况下，如何安全地计算一个约定函数的问题，在电子选举、电子投票、电子拍卖、秘密共享、门限签名等场景中有着重要的作用。

K匿名

k-匿名技术是1998年由Samarati和Sweeney提出的,要求发布的数据中存在一定数量(至少为k)的在准标识符上不可区分的记录,使攻击者不能判别出隐私信息所属的具体个体,从而保护了个人隐私。吴信东教授举例解释，“比如在西方国家，为了避免报警者受到报复，警察记录的是方圆多少距离的人打来的报警电话，通过对位置信息的泛化，保护了报警者的位置信息，但同时也会降低数据的可用性。可能警察记录是五公里以内的人打了电话，但是警察自己也找不到那个人是谁。”吴教授也介绍了他2003年在TKDE上同中南大学张师超教授一起发表的Local Analysis方法，这种方法利用本地学习的思想做信息保护和模型共享，但模型共享可能还是有信息保护的顾虑。

明略科技集团首席科学家吴信东教授

什么样的数据值得保护？数据隐私保护技术就像是顺丰快递，要看寄送的东西值不值得快递费用。评估数据的价值，是比数据保护更重要的事情。数据保护问题的本质就在于我们如何对数据进行定价。或许有人出价一万买你的隐私，你会断然拒绝；但如果是一亿呢？离开数据的定价、数据流动产生的价值和通过数据得到的服务去讨论数据隐私，其实都是比较片面的。

隐私保护的政策问题

2018年5月25日，欧洲联盟出台《通用数据保护条例》（GDPRGeneral Data Protection Regulation）。这是全球目前最严格的数据保护条例。其最高的一笔罚单给了英国航空公司，罚金数额为1.8339亿英镑（约合15.8亿元人民币）。

国际方面对于数据保护的政策愈发严格，中国在保护个人信息方面也发布了推荐性国家标准《信息安全技术个人信息安全规范》, 可以说在数据隐私保护规定方面,中国走在了亚洲前列。这项规范也参考了欧盟的《通用数据保护条例》，ISO29000系列等国际范围内的个人信息保护法律法规及标准，同时，从国内主要存在的个人信息保护现状和问题出发制定标准，更侧重标准的实用性。

欧盟《通用数据保护条例》（即GDPR）的制定确实在一定程度上保护了数据，但是也阻碍了欧洲人工智能产业的发展。而且，因为GDPR罚款高达公司全球营业额的4%，这对传统产业的企业很不友好、也不利于小公司的生存和发展。

从政策制定角度来讲，隐私保护政策需要可操作性以及合理合法的指导，让受众接受这条政策并积极施行。从经济学角度来讲，隐私保护政策会提高数据的价值，毕竟数据本身就是一种资产。

更严的隐私无疑会增加数据的成本，让整个行业尤其是小公司生存更加困难；更开放的数据共享，只会让大众和媒体放大数据隐私的侵犯，反而忘记数据共享带来的价值。我们需要的是灵活的隐私保护和数据共享方案。