CCFTF14：数据隐私保护下，AI大数据应如何发展？

2019 年 3 月 26 日 中国计算机学会

3月24日，由CCF主办、微众银行及深圳大学微众金融科技研究院协办的CCFTF14期研讨会在深圳大学举办，此次会议的主题为“联邦学习技术及数据隐私保护”。

转自亿欧记者现场报道，《CCF最新分享：数据隐私保护下，AI大数据应如何发展？》

3月24日，由CCF主办，微众银行及深圳大学微众金融科技研究院协办的“CCFTF14期研讨会”在深圳大学举办，此次会议的主题为“联邦学习技术及数据隐私保护”。

随着国际国内数据隐私保护成为新趋势，数据共享变得更加困难，如何在保护数据隐私前提下开展AI大数据研究？“联邦学习”可以打破“数据孤岛”具体应用在AI领域。聚焦“联邦学习技术及数据隐私保护”，CCFTF 14期研讨会邀请国际人工智能学会理事长、微众银行首席人工智能官杨强、南洋理工大学于涵教授、微众银行人工智能部高级研究员刘洋、京东城市计算事业部AI平台部负责人张钧波、北京观韬中茂（上海）律师事务所合伙人王渝伟、第四范式联合创始人、首席研究科学家陈雨强、微众银行人工智能部副总经理陈天健与大家现场互动交流。

AI大数据面临挑战，技术向善与迁移学习

我们知道，AI与各行业紧密结合，必将显著改善社会生活，这是一种比较理想的状态，然而现实是AI系统仍有许多不尽如人意的地方。另外，社会对隐私保护和数据安全提出了更高的要求，这也给大数据研究及共享提出了新的挑战。

竞争、安全及数据壁垒等因素造成所谓的“数据孤岛”问题。在此背景下，迁移学习帮助更多领域建模，就像在数据集之间建立朋友圈，数据孤岛问题得到有效解决。

AI向善与系统短板

AI向善，它能在普惠金融、普惠教育、普惠医疗、智慧城市、灾难营救、扶贫及农业等领域发挥重要作用。

杨强教授表示：“AI向善（AI for good），这在国外很早就被提出来的概念。这个概念不仅仅是计算机领域的发展，也是社会的需求，最近大家比较关心的一个议题就是AI和社会的结合。AI作为一种工具，就像以前互联网作为一种工具，加上一些传统的只能少数人享受的领域，然后通过AI的手段对广大的社会传播，能够让普通人也能享受过去VIP享受的那一些特殊服务，包括金融，所以这样就产生了AI和普惠金融；AI和普惠教育，例如大学的高等教育，能不能让所有人都能享受到。另外还有AI和普惠医疗、智慧城市、灾难营救，AI扶贫和农业等方面。”

AI若能与各行业紧密结合，必将显著改善社会生活，这是一种比较理想的状态，然而现实是AI系统仍有许多不尽如人意的地方，例如AI系统的有偏性和AI系统与人类合作方面的问题。

“AI系统有偏性，根据我们交给AI系统的数据，AI系统可以建立模型，但如果这个数据是有偏的，那么这个模型就会有偏性。另一个是AI系统和人类合作的问题，最近一个很大的事情是波音飞机自动驾驶系统和人类飞行员抢夺控制权，不幸的是系统赢了，导致飞机坠毁，现在波音飞机停飞。这给我们一个很大的启示，自动系统如果不能和人类有一个很好的交互，没有以人为中心的设计，这个系统会是一个灾难。”杨强教授表示。

迁移学习解决“数据孤岛”问题

目前，除AI系统自身的一些问题外，重视隐私保护和数据安全的新趋势也给数据研究及共享带来新的挑战。

近年来，国际国内对于隐私保护和数据安全的重视已成为重要趋势。欧盟去年5月通过最新法案《通用数据保护条例》(General Data Protection Regulation, GDPR)，对数据保护采取更严格的态度。同时，我国也在紧跟这些领域的法律和规范，自2017年《网络安全法》通过以后，目前我国个人信息保护法已纳入立法规划，有望在2020年通过，这些都反映出数据保护与隐私安全越来越受到重视。

随着隐私保护和重视数据安全成为新趋势，数据研究及共享面临更多问题。首先，由于竞争关系、安全问题、审批流程等因素，数据共享难度高。其次，数据在不同拥有方、云和端以及物联网节点之间的流通存在着难以打破的壁垒，形成所谓的“数据孤岛”问题。此外，即便不同行业之间有意愿交换数据，也可能遭遇政策问责和竞争保护，AI的大数据面临重重挑战。

虽然AI的大数据面临重重挑战，但数据孤岛并非不可解决。“迁移学习就是很好的解决方案。迁移学习是用一个成熟领域的数据和模型，通过知识迁移，帮助完成一个小数据建模。这样通过关联领域间的相似性，帮助更多领域建模，这就像在数据集之间建立朋友圈，数据孤岛也能得到有效解决。”杨强教授表示。

数据共享与安全，联邦学习的优越性

此外，解决数据壁垒、“数据孤岛”等问题的方法除迁移学习外，还有一个重要方法——“联邦学习”。

谷歌公司率先提出了基于个人终端设备的“联邦学习” (Federated Learning）算法框架。“联邦机器学习”(Federated Machine Learning）实际上是一种加密的分布式机器学习技术，参与各方可以在不披露底层数据和底层数据的加密（混淆）形态的前提下共建模型。它可以实现各个企业的自有数据不出本地，通过加密机制下的参数交换方式，就能在不违反数据隐私法规情况下，建立一个虚拟的共有模型。在这样一个机制下，参与各方的身份和地位相同，成功实现了打通“数据孤岛”走向“共同发展”的目标。

联邦学习分为横向联邦和纵向联邦，横向联邦数据方特征维度相同，纵向联邦数据方样本ID相同。纵向联邦学习的目标是A方与B方联合建立模型，并且假设只有一方有标签Y，两方均不暴露数据，但可能遇到的挑战是只有X的一方没有办法建立模型，双方不能交换共享数据，最终要达到的预期为双方俊获得数据保护且模型无损失。

“通过纵向联邦学习，各方在隐私保护下进行样本ID匹配，每个参与方并不知道另一方的数据和特征，每个参与方只得到自己的自己侧的模型参数（半参数），即满足隐私保护的要求，又满足数据迁移学习的目标。联邦学习希望在安全合规的基础上达到防御攻击、提高算法效率的目标。”刘洋博士表示。

基于此，微众银行AI团队提出了基于“联邦学习”的系统性的通用解决方案，可以解决个人(to C)和公司间(to B)联合建模的问题。此前，微众银行在城市管理的视觉应用方面，与极视角联合推出了联邦视觉项目。

“传统城市管理面临标签数量少、数据分散，集中管理成本很高且模型更新和反馈存在离线延迟情况，联邦视觉项目通过联邦学习对模型提升率为15%，且模型效果无损失，这是联邦学习应用在物联网领域的一大优势。” 刘洋表示。

物联网（IoT）是基于互联网、传统电信网等信息传输渠道，让所有具备通信功能的独立物体实现互联互通的网络。物联网的应用之一，是透过收集多个节点的小数据，聚集成大数据来建立应用模型。

而边缘计算（Edge Computing）则致力于通过依靠集网络、计算、存储、应用核心能力为一体的开放平台，就近提供最近端服务，从而产生更快的网络服务响应，满足不同行业的实时业务需求。

物联网、边缘计算和与人工智能 (AI) 的有机结合离不开分布式大数据的安全、合法的管理，联邦学习助力IoT，实现大规模用户在保护数据隐私下的协同学习。

多方如何实现“共同富裕”，联邦学习的收益分配

联邦学习助力物联网发展，那么，多个数据方是如何打破“数据孤岛”，实现 “共同富裕呢？联邦学习的收益分配是怎样的呢？

于涵教授表示。“在联邦学习机制下，参与各方的身份和地位相同，各参与方把加密后的数据贡献给联邦，然后数据联盟训练一个联邦模型，这个模型再开放给各数据使用方，达到数据的有效整合及使用，能够实现打通“数据孤岛。”

然而，在带来效益的同时，联邦学习也可能给企业带来额外成本。具体来说，参与者加入联邦需要对联邦做出贡献，把加密后的数据贡献给联邦，会产生数据成本和资金成本，且不同质量的数据方加入联邦、不同给时间节点加入联盟的成本和效益可能不完全相同。

“一个数据联盟的可持续发展取决于其能否持续吸引高质量的个人机构数据持有人的参与”于涵教授强调。

如何吸引高质量的个人机构数据参与进来？在解答这个问题之前，了解收益分配博弈是很有必要的。三类利润分配博弈中的分配方案包括平均主义、边际收益和边际损失。假设按照平均主义，数据联盟产生的收益在参与者中平均分配，边际收益则按照某个参与者加入联盟时带来的边际收益确定他所应得的收益，边际损失则按照某个参与者退出联盟带来的边际损失确定他所应得的收益；从系统角度考虑，总体目标是最大化集体效用。

这些分配方案都有各自的优劣，如何寻找一种适合联邦学习的分配方案？答案是联邦学习激励机制。数据联盟参与者模型中核心问题是如何公平地对待参与者，通过综合考量数据方对联盟的贡献以及参与联盟的代价，评估收益分配能否补齐成本，即评估公平度目标。

因此，联邦学习的解决方案是基于排队系统为公平度目标建模，通过保证排队系统稳定，保证参与者等候全额补偿的时间有限。另外，模型的公平性维度有三个，一是一个参与者所贡献的数据为联邦模型带来的边际效益越高，他所应得得补偿也越高；二是“遗憾”度及等待时长应在所有参与者间尽量均匀分布；公平性纬度三即在不同时间点之间，“遗憾”度及等待时长的变化尽量不要太剧烈最后在优化目标函数。通过优化目标函数，实现最大化公平度。

基于此，联邦学习激励机制的利益分配方案是最大化数据联盟的整体效用，同时最小化参与者之间在“遗憾”和等待时长两个维度的不均衡。

联邦学习，机遇与挑战并存

联邦学习解决了在保证数据安全的前提下解决了“数据孤岛”问题，同时联邦学习通过联邦激励机制实现参与方的收益分配尽可能公平。在未来，联邦学习还将带给我们更多惊喜，尤其在生态建设方面，主要包括开源、技术标准和商业赋能等领域。

在开源方面，微众银行基于“联邦学习”开发了联盟AI系统并开源联盟AI解决方案FATE（Federated AI Technology Enabler)。作为联邦学习领域第一个商用级开源项目，FATE为开发者提供所必须的多方协同建模工作流管理、加密机器学习工具库和并行计算基础设施抽象三层能力，同时提供了很多开箱即用的联邦学习算法和联邦迁移学习算法供开发者参考，极大简化了联盟AI开发的流程并降低了部署难度。这项开源技术的产生极大降低了企业加入联盟AI生态，拓展合作协同式AI技术的门槛，为企业技术合作，协同建模，共建生态奠定了技术基础。

在技术标准方面，2018年12月4日，电气和电子工程师协会标准委员会（IEEE Standard Association）批准由微众银行发起的关于联邦学习架构和应用规范的标准P3652.1（Guide for Architectural Framework and Application of Federated Machine Learning）立项。此次会议上，微众银行宣布面向社会征稿，接收的优秀论文将受邀在IEEE Intelligent System 特刊发表。

除了开源、技术标准外，商业赋能更是另一重要方面，尤其是新型智慧城市建设。京东智能城市事业部AI平台部负责人张钧波向大家介绍了城市计算与跨越学习联合建模，城市计算（Urban Computing）通过城市数据的采集、管理、分析挖掘和服务提供，解决交通、规划、环境等问题。针对城市大数据具有时空动态、异构、多源等特性，京东城市通过打造城市计算平台和数字网关技术，实现跨域学习联合建模，并提出联邦随机森林等模型，打通数据壁垒，解决数据孤岛问题。

除了联邦学习技术应用等主要议题之外，本次研讨会还针对联邦学习的学术研究以及基于数据隐私等现实案例问题邀请了第四范式的陈雨强博士和北京观韬中茂（上海）律师事务所合伙人王渝伟律师做内容分享，让在场的联邦学习爱好者们更深入地了解了联邦学习技术。

联邦学习带给我们更多惊喜的同时，也面临诸多挑战，如何避免模型攻击和数据攻击，如何让联邦学习在安全合规前提下提高算法效率，这需要学界与业界更多参与者共同探索！