中国计算机协会在“联邦学习技术及数据隐私保护”专题讲座分别从研究及应用两方面对此做了介绍,本文简要总结了报告的内容。
图中杨强教授正在做联邦学习的相关介绍
联邦学习的介绍
1、联邦学习的定义
联邦学习(Federated Learning)实际上是一种加密的分布式机器学习技术,参与各方可以在不披露底层数据和底层数据的加密(混淆)形态的前提下共建模型。它可以实现各个企业的自有数据不出本地,而是通过加密机制下的参数交换方式,即在不违反数据隐私法规的情况下,建立一个虚拟的共有模型。在这样一个机制下,参与各方的身份和地位相同,成功实现了“共同富裕”的目标。
2、联邦学习的过程
联邦学习的过程分为自治和联合两部分。
自治的部分:首先,两个或两个以上的的参与方们在各自终端安装初始化的模型,每个参与方拥有相同的模型,之后参与方们可以使用当地的数据训练模型。由于参与方们拥有不同的数据,最终终端所训练的模型也拥有不同的模型参数。
联合的部分:不同的模型参数将同时上传到云端,云端将完成模型参数的聚合与更新,并且将更新好的参数返回到参与方的终端,各个终端开始下一次的迭代。以上的程序会一直重复,直到整个训练过程的收敛。
图源:H.Bredan McMahan et al, Communication-Efficient Learning of Deep Networks form Decentralized Data, Google, 2017
3、联邦学习的特点
用户隐私数据的保护:联邦学习的根本目标和最大的优点在于用户隐私数据的保护,向云端传
输的是终端模型的参数,而非终端数据信息。但是,是否向云端只更新模型参数就能保证用户隐私数据没有任何的信息泄漏?根据目前的研究,答案是否定的。例如,在图像领域,图像数据的梯度和原始数据是成正比关系的,对于单个图像数据,可以通过梯度还原图像效果。解决梯度信息暴露的方法主要有以下几种,一是加大量梯度数据进行混淆,减弱某个梯度对于整个数据样本的影响;二是通过同态加密对原始梯度数据进行加密,保护原始梯度数据的泄漏;三是由谷歌提出的痛过私密共享上传梯度数据,效果与同态加密类似。
解决“数据孤岛”问题:由于竞争关系、安全问题、审批流程等因素,数据之间的流通存在难以打破的壁垒。即使行业间有意交换数据,也可能遭遇政策问责,因为重视数据隐私和安全已经成为世界性的趋势。通过联邦学习,可以在无需打通数据的前提下实现联合建模,真正得使用大数据提高模型预测效果。
4、联邦学习的分类
我们通过样本的用户和用户特征两个维度将联邦学习分为横向联邦学习、纵向联邦学习和联邦迁移学习。
横向联邦学习:参与方们的数据集具有高度重叠的特征维度,样本重叠较小,我们将数据集进行横向切分,提取出数据集间特征一致而样本不完全相同的部分作为训练数据。例如,联邦学习+智慧医疗,同一地区医院之间作为参与方共同建模,预测宫颈癌存活率,医院之间的病人数据特征维度高度重叠,属于横向联邦学习。
纵向联邦学习:参与方们的数据集具有高度重叠的样本纬度,特征维度重叠较小,我们将数据集进行纵向切分,提取出数据集间样本一致而特征不完全相同的部分作为训练数据。例如,同一地区的外卖APP和出行APP的用户间有高度的重叠,但是交易数据的特征维度重叠较小,外卖企业和出行公司之间联合建模属于纵向联邦学习。纵向联邦学习的目标是两个或两个以上参与方联合建模,假设是只有一方的数据带有数据标签Y,同时参与方们都不想要暴露数据信息,挑战是没有数据样本标签的参与方是无法独自建模的。在这种情况下可通过联邦学习的方式联合建模,既达到了数据保护的预期又保证了数据的无损性,所谓无损性就是联合建模的训练的模型效果与在无数据隔阂的情况下将所有数据进行训练的模型效果一致。
联邦迁移学习:如果参与方们数据集在样本和特征维度上都没有足够的重叠,我们可以使用联邦迁移学习,不对数据进行切割。假设有两个参与方,参与方的A数据带有标签,参与方B的数据没有标签,两方原始数据在样本和特征维度上都没有足够的重叠。联邦迁移学习实现的基础在于找到参与方A与B数据集特征向量的最小距离。
5、数据安全的假设
联邦学习的根本目标是为了保障数据信息安全,但是在不同的场景,不同的主体对于隐私和数据安全的要求或者定义不相同。因此在联邦学习中,参与方们在进行隐私保护下的机器学习之前需要定义数据安全的概念,达成共识。
在联邦学习中,我们有以下4个假设:
1. 所有参与方们都是诚实但好奇的。所有的参与方们会遵循联邦学习的数据保密规则,但同时他们也会利用所得到的所有信息去推测其他参与方的数据信息。
2. 在参与方们之间存在潜在的恶意的一方,该参与方会通过控制或者篡改自己数据去影响联合建模的效果。
3. 零知识和一些知识的博弈。零知识是一种理想的状态,指的是在联合建模之后,参与方们对彼此的数据信息一无所知。但是零知识的现象伴随着高度复杂的系统和传输方式,在实际中并不可取。在数据安全的假设允许建模的参与方们知道对方部分的非关键信息,在一些知识假设下的联合建模可以达到更高的系统效率。
4. 联邦学习既存在中心也存在节点,安全定义需要防御恶意中心和恶意数据节点。
6、隐私保护下的技术工具
在定义了数据安全之后,参与方们需要使用工具来进行数据的隐私保护,主要的工具包括安全多方计算,同态加密,私密共享和差分隐私,以下主要介绍各个工具的优缺点。
图中刘洋博士正在做关于联邦学习分类的分享
安全多方计算优点在于可以保证知识在信息层面的数据安全,缺点在于信息传输量大。为了降低数据传输成本,参与方们可能需要在降低对数据安全的要求来提高训练的效率。
同态加密的优点在于对所有数据进行加密处理,参与方们接收到的是密文,无法推理出原始数据信息,保障了数据层面的安全,缺点是计算效率低。在实际应用中,为了提高计算效率,参与方们一般采用半同态加密,半同态加密可以在密文上做加法和乘法运算。
私密共享需要信任第三方的存在,优点在于计算效率较高,缺点在于信息传输效率低,因为需要做多次的传输。
差分隐私优点在于保证数据信息安全,通过在参与方各自的原始数据上不断加噪音来减弱任意一方数据对于整体数据的影响,缺点在于牺牲训练效果,过多的噪音会降低模型训练的效果,因此参与方们使用差分隐私时需要在数据安全和准确度上做取舍。研究表明,在联邦学习中,如果参与方数量较少,用差分隐私来进行数据的隐私保护,模型的准确率会较低。
7、联邦学习的构架
我们假设有两个企业A与B,企业的A拥有模型需要预测的数据标签,企业B的用户数据没有标签。
考虑到用户数据隐私安全,企业A与B无法直接打通数据进行建模,他们可以通过联邦学习的方式来进行联合建模。当然,两个B2B的联邦学习构架也适用于多个B2B和B2C的场景。
图源:联邦学习-杨强、刘洋、陈天健、童咏昕-CCCF 2018年第11期
联邦学习的架构包括:
第一部分:加密样本的匹配。两个企业的数据之间存在很多区别,需要先将加密样本进行横向或纵向的切分和对齐。在不暴露用户数据信息的前提下,确认数据集间共同的特征维度或者用户,以便训练数据特征维度的确立。
第二部分:加密模型训练,本案例中使用同态加密作为数据隐私保护工具,引入信任第三方。
(1)第三方C将公钥分发给企业A与B,用于加密各自的计算出的梯度信息,只有第三方C拥有私钥可以解密信息。
(2)企业A与B以加密形式交互用于计算梯度的中间结果。
(3)A和B分别基于加密的梯度值进行计算,同时B根据其标签数据计算损失,并把结果汇总给C,C通过汇总结果计算总梯度值并将其解密。
(4)C将解密后的梯度分别传回A和B,A和B根据梯度更新各自模型的参数。
以上的程序会一直重复,直到整个训练过程的收敛。
联邦学习的应用案例
联邦学习在金融领域的应用案例
同一地区的线上商城和银行用户具有高度的重叠,银行的用户数据具有很好的数据标签,例如逾期和信贷等级等,但是用户在银行属于低频交易,相比起互联网公司的用户数据,银行的数据量较小。线上商城的数据涉及用户消费习惯和消费水平的特征。如果在互联网公司和银行用户数据上进行联合建模,银行信贷预测的各项指标都会得到提高。
联邦学习在城市管理的应用案例
在城市管理中,马路上四处分散的摄像头可以帮助监控和管理违规行为。在这个场景中,每个摄像头终端所储存的标签数据较少而且无法及时反馈做标注工作,所以过往的方法是将各个终端数据上传到云端,离线更新模型。但是离线模型更新会有延迟性和数据分散的问题。针对这个问题,微众银行提出了横向联邦学习的解决方案,即各个终端联合建模在本地进行标数据标注和模型的更新,使得本地数据无需上传终端。
联邦学习在城市计算中的应用案例
图中张钧波博士正在分享联邦学习+城市计算相关内容
在智慧城市建设中,各个政府机关已经建立了各种信息系统或数据平台。大型企业尤其是央企国企也积累了各类海量数据。当前一些社会重要的发展项目,例如征信体系的建设,需要联合政府和大型企业的数据共同完成。考虑到政府数据和商业数据的保密性,使用联邦学习在政府与企业间共同建模才能完成整个完善的征信体系的建立。
联邦学习技术是隐私保护下机器学习的可实现路径和”数据孤岛问题“的可解决方案。同时,联邦学习技术适用于B2B和B2C业务,可以赋能智慧城市、智慧金融和智慧医疗等多个领域,应用十分广泛。
联邦学习作为人工智能领域应对日益突显的数据隐私保护重要性的新手段,Google、微众银行、平安科技、京东和第四范式等企业目前都在大力推动联邦学习的发展,积极探索应用场景和应用模式。
3月24日,中国计算机学会举办了“联邦学习技术及数据隐私保护”的专题研讨会,国际人工智能学会理事长、微众银行首席人工智能官杨强、南洋理工大学于涵教授、微众银行人工智能部高级研究员刘洋、京东城市计算事业部AI平台部负责人张钧波、北京观韬中茂(上海)律师事务所合伙人王渝伟、第四范式联合创始人、首席研究科学家陈雨强、微众银行人工智能部副总经理陈天健等到场与大家分享关于联邦学习的研究和思考。
会议最后一项议程“圆桌论坛:探讨联邦学习之机遇与挑战”,各位专家在一起畅谈联邦学习的多种可能性。短短一小时的微型论坛,引发各界人士积极参与讨论,有来自于平安、腾讯、中兴和百度的企业代表,也有来自北京大学、中山大学、华东师范大学和深圳大学等高校的学生代表,大家从技术、研究和法律三个角度出发,碰撞出思想的火花。
张钧波、陈雨强、杨强、于涵、王渝伟、陈天健(左起)在一起探讨联邦学习
技术 | 联邦学习的优劣势和应用场景探讨
杨强:联邦学习是一个新的技术,数据集有可能合并在一起。现在因为各种原因,数据分布在各地,并且要求保护安全、隐私。在这个前提下,肯定要损失一些东西,我想问各位,损失掉了什么?损失的指标对业务影响有多大?
陈天健:一个事情肯定有正反两面的。联邦学习给大家带来的很大的机遇是不用之间面对数据墙,不用再为了打破数据墙而撞得头破血流,现在我们有机会把多方数据进行融合,从而形成一个大数据的应用和研究。同时,联邦学习也带来一些挑战。在使用数据的时候,可以应用非常传统的方法,对它进行加工处理。而在联邦学习模式下,对于特征的处理也必须遵循联邦化加密的分布式的协议,它在这方面所需要的工作可能会比明文地堆在一起要大一些,技术上会带来所谓的“损失”,但也开辟了一些新的研究领域。
杨强:两方合作联合建模时,一方有Y,一方没有Y,没有Y的那一方建模就有很多缺陷,不知道如何选择特征。这个问题,在实践中如何解决呢?
陈天健:抛开联邦学习不谈,以前的业务实践中,有Y这一方,通常是拥有业务、拥有实际应用的一方。通常来说,有实际应用是不大可能没有Y的。由有实际应用的这一方,也就是有Y的这一方,主导整个建模的进程,从业务的角度、应用的公平性角度来说是合理的。未来2-3个月,我们会添加更多的feature engineering工具和算法box。
陈雨强:我也补充下。业务矩阵的情形下,其实天然存在很多数据。但是如果是一个新的产品新,可能还没有累计足够多的Y,又希望借鉴过往同业的经验。这个场景下,可能出现有X而没有Y的情形,这个模式下就可以用到联邦学习,共享同业的数据。实现方法是多种多样的,组合或者对特征进行额外处理都可以。
陈天健分享
企业代表:如何看待联邦学习模型的可解释性?
陈天健:模型的可解释性与模型本身相关。从大的层面来说,运用到更多数据,维度更多,可解释性更强。像决策树这些模型的话,本身就具有一定的可解释性;模型维度变多的话,其实可解释性是加强的。
陈雨强:联邦学习不会太大程度影响解释性。对于没有的维度,其实增加了可解释性;对于没有增加维度的,与传统机器学习没有差别。
企业代表:用户对新技术的安全性的困惑怎么解决?
张钧波:先做好销售人员培训工作,再面向真实客户。客户不懂技术的情况下,需要不断地沟通。业内Google、微众银行等都在推动这个技术,吸引客户反过来了解这个技术,认可这个理念。当然,前提是客户愿意共享数据,技术上能够说服客户的话,其实客户会愿意参与。整个推进过程其实还是比较复杂的。
陈雨强:让一部分人先富起来,先塑造一些成功案例,这样有利于解决用户困惑。
研究 | 联邦学习未来无限可能
杨强:很多学生慕名前来,寻找新的研究课题,大家有什么建议呢?
张钧波:我们更多是偏应用的,读本科、硕士还是博士其实在选择上会有一点不一样。对博士来说,可能需要做更多的基础算法研究;如果是本科、硕士生的话,可以更多尝试做应用级别的工作,这样会更让成绩更丰富,其实很多事都需要做应用层级的研究。比如:怎么打通数据共享,比如企业数据的共享;标签不一样的数据集,要构建新的应用级的算法等等。
于涵:我也来补充一点,我们南洋理工大学和微众银行共同建立了一个联合研究院。这个研究院旗下有很多面向学生的研究项目,比如联邦学习架构下的Game Theory测试,不光是利益分配方面,可能有其他的情况,像有人以不同的形式、不同的人来捣乱,怎么设计一些机制来震慑这些行为,让这些行为变得更可控,在可接受的范围内。现有的大方向下能够细分出很多小方向供学生参与,希望我们可以共同促成一些非常有意义、有价值的事情。
于涵教授分享
法律 | 王渝伟律师谈数据隐私立法
杨强:我印象中,国内的一些法律的建立往往是由一个案例作为trigger触发,我国立法为什么会是这样的被动现象?以后我们会不会像欧洲一样,更加主动地解决这些问题?
王渝伟:这个问题确实存在,但在数据安全保护这一块是不同的,相应的配套法规出台非常快。《网络安全法》和《信息安全法》下面有很多规章,有了推荐性的国家标准。网络这块的立法其实已经推进得很快了。最早是以GDPR为框架来制定的,《关键信息基础设施保护条例》会有四个国家标准出来,与国际上接轨会比较多,大家可以关注一下。
学生代表:GDPR与我国的安全保护法强调匿名并且不可逆,现在联邦学习都是采用差分隐私。有什么证据证明差分隐私不可逆?以后有什么方法保护?
杨强:大家会有不同的见解,本次请了一名法律顾问也是出于这个考虑。技术层面的是否受到法律界的认可,我们需要与法律界有更多的沟通。我们需要了解法律是怎么样的,积极参与立法,我们正在努力。
企业代表:国内对商业公司的限制越大,数据往政府方向集中。以后数据保护相关法律发展时,会同等作用在商业公司和政府吗?还是会有倾斜呢?
王渝伟:其实对商业公司和政府的适用范围是一样的。有特殊的例外,比如司法调取等。
学生代表:GDPR对个人数据对欧盟的个人信息有保护力,我国法律怎么确保我们公民的数据不在国外被滥用?
王渝伟:基于长臂管辖原则。GDPR 等法案的出台,个人隐私保护只是一方面,更深层次的原因是各个国家都希望数据只进不出。目前,国际上都在探讨数据跨境的问题。现在日本和韩国正在跟欧盟商谈,希望只要渠道受认可就能流动。但中国与欧盟的协定短期内不可能达成一定。中国有自己的特点,不能一味地按照GDPR和美国的方式去做。
“数据为王,安全至上”的时代已经来临,联邦学习的发展离不开学界和工业界的共同探索和推动,更需要法律的引导。你准备好,迎接“联邦学习”的到来了吗?
工业互联网+智能制造
产业智能官 AI-CPS
加入知识星球“产业智能研究院”:先进产业OT(工艺+自动化+机器人+新能源+精益)技术和新一代信息IT技术(云计算+大数据+物联网+区块链+人工智能)深度融合,在场景中构建状态感知-实时分析-自主决策-精准执行-学习提升的机器智能认知计算系统;实现产业转型升级、DT驱动业务、价值创新创造的产业互联生态链。
版权声明:产业智能官(ID:AI-CPS)推荐的文章,除非确实无法确认,我们都会注明作者和来源,涉权烦请联系协商解决,联系、投稿邮箱:erp_vip@hotmail.com。