【导读】北京大学最新大数据计算环境下隐私保护技术进展。
批处理、流式计算和机器学习等分布式的大数据计算环境在云上的广泛部署与应用,为云用户带来了极大的便利, 但随之带来的隐私数据泄露事件愈演愈烈。如何在这种云上部署的大数据计算环境下保护数据隐私成为一个研究热点,本文对近些年国内外在该领域的最新隐私保护研究成果及进展进行了全面综述。针对上述大数据计算环境下的参与角色及应用场 景,结合不同角色的敌手模型,从计算过程涉及的数据输入、计算和输出等三个环节出发,依据计算数据为明文、密文或可 信硬件保护条件下可能存在的隐私泄露风险,总结了对应的 5 类主要研究方向,包括:基于数据分离的隐私保护、基于数据 干扰的隐私保护、基于安全多方计算的隐私保护、基于硬件增强的隐私保护和基于访问模式隐藏的隐私保护等,从隐私性、 可用性和性能等方面对比分析了现有研究工作的优缺点;最后,展望了大数据计算环境下隐私保护技术的未来研究方向。
引言:
随着云计算与大数据技术的发展,亚马逊、微 软、华为与阿里等主流云服务提供商(Cloud Service Provider, CSP)支持云端部署分布式存储和计算框 架,主要包括批量计算框架(如 MapReduce[1])、流 式计算框架(如 Spark Streaming[2]、Storm1、Flink[3]) 和机器学习框架(如 TensorFlow[4])等,为用户提 供持续可靠、可扩展且高吞吐量的大数据存储和计 算服务。但是,在这种外包的大数据计算环境下, 由于数据所有权和使用权的分离,在计算过程涉及 的数据输入、计算和输出等阶段都有可能发生隐私 数据泄露的风险。因此,如何在大数据计算环境下 保护敏感数据的隐私性(privacy),同时保证数据 的可用性(utility)和计算的高效性(efficiency)成 为大数据隐私保护领域的研究热点之一。
近年来,隐私数据(private data)泄露事件频频发生,造成的影响也越来越严重。从泄露的数据 类型来看2,泄露最多的隐私数据是个人基本信息, 其次是用户账号密码信息,再者是个体敏感信息。并且个体敏感信息泄露呈现明显增长的趋势,主要 包括人脸图像、指纹和虹膜等生物识别敏感信息、 交易收入敏感信息和医疗病历敏感信息等三类数 据。国内外隐私泄露事件举例3:2016 年 5 月,美 国职业社交网站LinkedIn宣布近1.67亿用户的电子 邮箱地址和密码发生泄露,并被黑客组织公开销 售;2017 年 9 月,美国知名信用机构 Equifax 遭黑 客攻击,导致近 1.43 亿用户的信用卡和驾照号码等 个人信息被泄露;2018 年 3 月,美国社交媒体 Facebook 承认其近 5000 万用户的个人信息被一款 性格测试软件非法收集;2019 年 2 月,中国深网视 界科技有限公司(SenseNets)被曝出超过 250 万人 的人脸数据泄露;2020 年 5 月,某脱口秀艺人控诉 中信银行为“配合大客户的需要”,在未经本人允 许的情况下违法泄露了个人账户交易。为了避免隐 私泄露带来的负面影响和经济损失,一系列隐私保 护条例和法规被相继提出4。例如,国内已经实施的 《中华人民共和国网络安全法》和最近通过的《中 华人民共和国个人信息保护法》,明确规定了个人 信息收集、处理和利用的基本规范和主要法律责任;国际上,欧盟已经实施的《通用数据保护条例》 (General Data Protection Regulation, GDPR),加强 了欧洲居民的个人数据保护;美国加利福尼亚州已 经颁布且正式生效的《加州消费者隐私法案》 (California Consumer Privacy Act, CCPA),旨在加 强消费者的数据安全与隐私保护。但是,仅仅从立法层面约束隐私泄露事件的发 生是不够的,面对多样化的业务场景和问题挑战, 从技术层面引入一些隐私保护技术是非常必要的。近年来,云上数据隐私问题已经受到了学术界和工 业界的广泛关注和重视。分析大数据计算环境下数 据处理流程,主要存在三类隐私泄露问题:数据输 入阶段的原始数据(raw data)隐私泄露,计算过程 中的隐私数据被攻击者窃取,以及不可信的数据消 费者在结果输出阶段试图推断出数据隐私。首先,在数据输入阶段,如果对数据所有者的 敏感信息不采取标记和去隐私处理,那么有关个体 的隐私数据将可能被不可信的云服务提供商或者 其他攻击者恶意窃取,造成个体隐私的直接泄露。为了在数据输入阶段保护个体隐私,目前行之有效 的手段是采取数据分离或者数据干扰等方法。其 一,数据分离方法主要考虑到隐私数据的位置,一 般将数据所有者的非敏感数据上传到公有云,敏感 数据被分离到本地的私有云,这保证了敏感数据在 可信的私有云环境进行存储和计算。
但是,在实践 中发现,数据分离方法会增加私有云与公有云之间 的通信开销,甚至通信数据存在被恶意敌手截获的 风险。例如,主流的 MapReduce 计算框架是基于单 个云而设计的,并不适用于混合云环境;另外,联 邦学习下本地和第三方参数服务器之间传输的参 数也属于模型隐私。其二,本地化差分隐私(Local Differential Privacy, LDP)技术是目前数据干扰方法 中保护输入阶段个体隐私的一种重要手段。该技术 不要求数据所有者必须信任云服务提供商,通过对 敏感信息进行本地化随机响应,达到干扰真实数据 的效果。不可避免地,在云端对失真数据进行分布 式计算会严重地影响结果的准确性。因此,如何在 保证原始数据隐私性的同时,有效地提高数据的可 用性已经成为学术界关切的热点问题。其次,在数据计算阶段,如果存储在云端的数 据直接以明文的形式参与计算,那么不可信的云服 务提供商或者计算参与方可以伪装成半诚实敌手 直接窥探到部分甚至整体数据,进一步推测出个体 隐私信息,造成计算过程中的隐私泄露。为了保证 数据的机密性和计算隐私性,目前行之有效的手段 是对传输数据进行加密,即加密传输,并结合安全 多方计算(Secure Multi-Party Computation, SMC)、 硬件增强或者访问模式隐藏等主流方法实现隐私 计算。其中,设计安全多方计算协议需要依赖混淆 电路(Garbled Circuits, GC)、秘密共享或者同态加 密(Homomorphic Encryption, HE)等密码学技术, 在互不信任的多个参与方之间协作计算时,SMC 保 证任何一方都无法窃取其他各方的数据隐私。特别地,同态加密使得在密文上执行计算成为可能,即 密文计算。但是在实际应用中,对于复杂的计算任 务其执行效率较低且计算开销较高。为了解决密文 计算带来的性能瓶颈,学术界一方面对更加实用且 高效的安全多方计算协议开展研究,另一方面依赖 可信硬件保护提出“加密传输-明文计算”的优化策 略[17,116]。Intel SGX(Intel Software Guard Extensions) 属于硬件增强方法中的代表性技术,它为明文计算 提供了安全的可信执行环境(Trusted Execution Environment, TEE)。相比 SMC,Intel SGX 技术既 能保护数据的机密性和隐私性,也保证计算代码的 安全执行。尽管如此,攻击者仍然能够通过观察内 存层的访问模式[5]和网络层的访问模式[6],进一步 地推测出数据隐私。不经意随机访问机(Oblivious RAM, ORAM)和不经意混洗(oblivious shuffle) 是目前主流的两种访问模式隐藏技术,它们能够实 现不经意计算(oblivious computing),防止攻击者 观察计算过程中的访问模式。再者,在计算结果输出阶段,如果数据不经过 去隐私化处理而直接发布,那么攻击者可以结合背 景知识分析输出结果,窃取其中可以追溯到特定个 体的敏感信息,造成输出阶段的隐私泄露。为了解 决输出隐私问题,目前主要采用数据干扰方法,如 数据匿名(data anonymization)和中心化差分隐私 (Centralized Differential Privacy, CDP)技术。但是 干扰数据会影响数据的可用性,因此需要考虑隐私 性和可用性权衡问题。
近年来,国内外学者研究了隐私保护技术在数 据挖掘隐私、大数据安全与隐私以及机器学习隐私 等领域的应用,形成了一些综述性的文章:文献[7] 重点分类阐述了数据失真、数据加密和限制发布等 隐私保护技术在数据库领域的应用;文献[8]重点梳 理了基于直方图、基于划分和基于回归分析的差分 隐私技术在数据发布和分析中的应用;文献[9]重点 对比分析了隐私保护数据挖掘(Privacy-Preserving Data Mining, PPDM)中的数据匿名和数据扰动技 术;文献[10]聚焦大数据安全与隐私领域,梳理及 总结了隐私保护、信任和访问控制等角度的关键技 术,包括数据匿名、数据水印、数据溯源和风险自 适应的访问控制等技术;文献[11]从 MapReduce 计 算的数据安全性和隐私性出发,调研并分析了所面 临的安全和隐私挑战、敌手能力以及现有的安全和 隐私协议等内容;文献[12,13]聚焦机器学习隐私, 重点分析和总结了差分隐私、同态加密和安全多方 计算等技术在该领域的研究成果。除此之外,已有 的大多数综述文章侧重于梳理某项或者某类隐私 保护技术的基础理论与应用[130,132],形成专项技术 综述,却缺少对大数据计算全过程面临的隐私问题 及不同隐私保护技术的总结分析。特别是目前大数 据隐私问题严重地影响了计算框架的推广与应用, 因此有必要梳理有关大数据计算隐私的研究进展。本文区别于已有综述文章,重点梳理了与大数 据计算环境相关的隐私保护研究工作。如图 1 所示 为本文结构图,展示了不同隐私保护技术之间的联 系与分类依据。
本文侧重于从计算过程涉及的数据输入、计算 和输出等三个环节出发,依据计算数据为明文、密 文或可信硬件保护等条件下可能存在的隐私泄露 风险和技术挑战,将分离执行、联邦学习、差分隐 私、安全多方计算、Intel SGX 等主流的隐私保护技 术划分为 5 大类,包括基于数据分离的隐私保护、 基于数据干扰的隐私保护、基于安全多方计算的隐 私保护、基于硬件增强的隐私保护和基于访问模式 隐藏的隐私保护等。每一类隐私保护技术侧重于解 决不同阶段所面临的隐私问题,并依赖不同的解决 思路。例如,差分隐私通过拉普拉斯、指数和随机 响应等扰动机制干扰数据,保证数据输入阶段或输 出阶段隐私;安全多方计算依赖混淆电路、秘密共 享和同态加密等密码学手段,设计协议保证计算过 程中数据的机密性;联邦学习通过在本地联合训练 模型保护训练数据的隐私,但是已有研究表明联邦学习存在着参数泄露的风险,需要进一步地依赖差 分隐私或者安全多方计算等技术保护训练阶段的 模型隐私;Intel SGX 通过提供可信的执行环境保证 数据以明文形式计算的安全性。此外,本文从隐私 性、可用性和性能等方面对比分析了现有研究工作 的优缺点;最后对未来研究方向进行探讨及展望, 为今后进一步研究提供参考。
**本节对大数据计算环境现状及存在的隐私问 题进行概述,主要介绍了大数据计算环境下的参与 角色以及部署框架,并分析了敌手模型、存在的隐 私问题与挑战、以及主要研究方向。
随着数据持有者的数据不断增长,对数据的维 护成本越来越高,导致数据处理的部分或者全部任 务从本地(或私有云)迁移到公有云。虽然数据处 理的位置发生了变化,但是对敏感数据的隐私要求 没有改变。假设云服务提供商作为不可信的第三 方,一旦存在内部攻击者或者软件脆弱性等潜在的 安全风险,将直接造成数据隐私泄露。为了解决上述问题,研究者们提出根据数据的 敏感性分离存储和计算数据的解决思路,即基于数 据分离的隐私保护方法。相比其他的隐私保护方 法,该方法保证了敏感数据在本地或者私有云环境 被安全高效的处理,而不会被迁移到不可信的公有 云环境。目前,基于数据分离的隐私保护相关研究 工作主要包括基于敏感数据标记的分布式计算和 基于数据分离的联邦学习。
近些年发生的隐私泄露事件都表明未经过脱 敏处理的数据在云上发布或者共享很容易泄露数 据隐私,特别是个体敏感信息。在基于云的大数据 计算环境下,随着大数据分析的普及,云服务提供 商越来越热衷于聚合来自数据持有者的数据,以获 取更有价值的结果。但是假设云服务提供商或者数 据消费者不可信,对数据具有访问权限的云平台内 部攻击者可能窥探其中的个体敏感信息,造成输入 隐私泄露。具有背景知识的外部攻击者可能提交恶 意程序获取特定的输出结果,试图推测出能够关联 到特定个体的敏感信息,造成输出隐私泄露。为了解决上述问题,研究者们提出基于数据干 扰的隐私保护。相比其他的隐私保护方法,该方法 会造成数据失真,通过牺牲数据的精度来增强隐私 保护水平,因此隐私性和可用性的权衡问题一直是 该研究方向的热点问题。目前,基于数据干扰的隐 私保护方法中最主要的两种隐私保护技术是数据 匿名和差分隐私。
在基于云平台的大数据计算环境下,假设多个数据持有者之间互不信任,但是出于商业合作的目 的,他们需要共享数据以联合分析出更有价值的信 息。如果对于共享的数据不进行加密或去隐私处 理,那么将会直接破坏共享数据的机密性和隐私 性。要么在数据共享之前对其进行干扰,但是会严 重制约联合分析的任务类型和数据可用性,不适用 于复杂的联合计算任务。要么对数据集进行加密后 传输,因此,需要采取一种能够在敏感数据集上进 行安全计算的隐私保护技术。目前,学术界对安全多方计算协议有较多的理 论研究[89-91],它允许互不信任的各方在不泄露隐私 数据的情况下进行联合计算。但是,其在大数据的 实际应用中扩展性较差,一方面是在密文上执行复 杂计算任务时其执行效率非常低,一般用执行时间 或计算成本来衡量;另一方面是多方联合计算会带 来较高的通信开销,一般用通信成本衡量。本节主 要展开介绍大数据计算环境下高实用的安全多方 计算研究工作进展。
在基于云平台的大数据计算环境下,采用密码 学手段加密数据并在其上执行安全计算存在计算 开销和通信开销的性能瓶颈。出于隐私性和高效性 的权衡,研究学者提出了基于硬件增强的“加密传 输,明文计算”思路,即数据被加密传输但在可信 硬件支持下高效地执行明文计算。特别地,当云平 台部署的操作系统被妥协时,如何有效地抵抗具有 根访问权限的攻击者通过执行恶意程序窃取数据 隐私是一个值得被研究的问题。目前行之有效的隐私保护手段是从硬件增强 的角度提供隐私保护,许多研究工作是在大数据计 算环境下借助 Intel SGX 技术的加密内存来保护关 键代码和数据的机密性。相比其他的TEE技术,Intel SGX 基于安全硬件的最小可信计算基(Trusted Computing Base, TCB)提供了用户空间的安全隔离 执行环境,同时能够兼容虚拟化及容器技术;而 AMD(advanced microdevice)硬件虚拟化技术基于 可信的特权软件(hypervisor)提供了操作系统级别 的安全隔离执行环境,其安全性依赖特权软件的安 全性,特别是当特权软件被妥协时其安全性受到威 胁;TrustZone 技术通过 CPU 将系统划分为安全和 非安全的两种隔离执行环境,其主要应用到嵌入式 平台。因此,在基于云平台的大数据计算环境下, 采用 Intel SGX 硬件增强技术保护计算过程中数据 隐私是比较热门的,本节主要梳理该领域的大数据 计算框架以及计算性能优化的研究工作。
尽管数据加密可以很好地隐藏数据的机密性, 但是不能隐藏一些元数据,比如访问模式、数据来 源和去向等。云平台内部攻击者可以利用这些元数 据获得两种隐私信息,其一是根据访问模式推测出 数据的相关属性,如果攻击者知道有关数据的背景 知识,那么它可以推测出传输数据的明文信息;其 二是根据数据来源和去向推测数据发送方和接收 方的身份,虽然已有一些元数据隐藏技术,但是它 们无法抵抗能力更强的节点访问型攻击者[11]。Zheng 等人[117]指出访问模式泄露攻击发生在 内存层和网络层,当恶意操作系统通过监视应用程 序的页面访问来推断有关加密数据的信息时,云平 台会发生内存层的访问模式泄漏。而网络层的访问 模式泄漏发生在分布式系统的任务调度和消息传 输中,尽管通过网络发送的消息数据是加密的,但 是某些分布式任务(例如排序或散列分区)也会产 生披露加密数据隐私的网络流量。严重地,攻击者 可以通过分析计算过程中网络流量的特点实施流 量分析攻击。为了解决内存层和网络层的访问模式泄露,目 前主要采用不经意随机访问机 ORAM 和不经意混 洗技术,在云服务提供商不可信的安全假设下,实 现不经意计算来隐藏访问模式。在实际应用中,基 于访问模式隐藏的隐私保护方法一般不会单独使 用,通常在数据加密或可信硬件支持等条件下采取 该方法进一步地增强安全和保护隐私,本节重点总 结在大数据计算环境下该方向的相关研究工作。
本文对大数据计算环境下的隐私保护技术研 究进展进行了综述。首先分析了大数据计算环境下 的敌手模型、隐私问题与挑战,以及隐私保护的研 究方向;接着,根据隐私保护技术的不同,分别总 结分析了基于数据分离的隐私保护、基于数据干扰 的隐私保护、基于安全多方计算的隐私保护、基于 硬件增强的隐私保护、以及基于访问模式隐藏的隐 私保护等研究方向的最新研究进展,并对比分析了 不同隐私保护技术的优缺点;最后,展望了大数据 计算环境下隐私保护技术的未来研究方向。期望本 文的工作,能给以后的研究者提供有益的参考与借 鉴,为大数据隐私保护的进一步发展做出贡献。综合分析可知,不同隐私保护技术具有不同的 技术特点、局限性和适用场景。在大数据计算环境 下应用隐私保护技术时,数据分离和匿名技术侧重 于在数据输入阶段保护原始数据的敏感信息,其中 数据分离技术主要存在通信开销较高的局限性,适 用于本地或私有云环境具有较强算力的隐私保护 场景,匿名技术实现简单但是主要面临着更强背景 知识攻击的困扰;差分隐私技术侧重于在数据输入 和结果输出阶段扰动数据,在实际应用中计算效率 较高,但是主要存在可用性不高的局限性,适用于 计算节点算力较弱且对隐私保护水平有一定要求 的场景;安全多方计算、Intel SGX 和不经意计算等 技术侧重于在数据计算过程中保护数据的隐私性 和计算的安全性,在实际应用中,安全多方计算主 要存在通信开销较高和执行效率较低的局限性,适 用于多方分布式联合计算的隐私保护场景;Intel SGX 技术需要可信硬件辅助以在安全隔离环境下 执行明文计算,在应用中主要面临侧信道攻击的安 全威胁;不经意计算主要依赖 ORAM 或不经意混 洗手段隐藏访问模式,但是这些手段本身存在低效 性和特殊性,特别是 ORAM 在实际应用中带来了 较高的计算复杂度。因此,未来在大数据计算环境 下应用这些隐私保护技术,仍然存在很多问题需要 亟待解决,其中以下五个问题值得进一步地研究。
(1)研究低带宽网络环境下的高效数据分离
保护:目前,数据分离技术主要存在通信开销较高 的局限,不仅表现在混合云中跨云聚合时的通信数 据量和通信总时耗(见第 3.1.2 节),也体现在联邦 学习中达到预定模型精度时,本地客户端与云端服 务器之间的通信数据量和通信轮次(见第 3.2 节)。为了适用低带宽网络环境,特别是随着越来越多的 通信带宽和电力有限的终端设备接入,降低数据分 离方法中的通信开销提高通信效率显得十分重要。因此,需要研究低带宽网络环境下的高效数据分离 保护,例如通过对键的独立划分降低公有与与私有 云之间传输的元组数量,压缩模型或者选择部分客 户端参与更新降低联邦学习中传输的模型参数量, 以及降低模型精度来减少通信轮次等方式。
(2)研究针对复杂数据类型的高可用差分隐 私保护:目前,大部分研究工作重点关注简单数据 类型的差分隐私保护,例如针对离散分类数据的本 地化差分隐私地频率估计以及针对连续数值数据 的本地化差分隐私地均值估计。而对于大数据计算 中的半结构化或者非结构化数据研究较少,例如键 值型数据或者图数据等复杂数据类型。在实际应用 中,参与大数据计算的主要是这些复杂数据类型。另外,现有方案对键值数据进行扰动时忽略了键与 值之间的对应关系[76],一方面将造成隐私泄露降低 隐私性,另一方面将导致过多的噪音被添加,影响 了可用性。因此,在实际应用场景下,权衡复杂数 据类型扰动的隐私性和可用性,设计出高可用的差 分隐私保护是未来这一类研究方向的重点。
(3)研究实用型的安全多方计算协议,进一 步提升性能:虽然现有的安全计算协议能够保护计 算过程中数据隐私,但是当真正应用到海量数据的 安全计算时,它面临着较高的通信开销和计算开销 瓶颈(见第 5.4 节)。为了支持多用户并发访问且快 速响应的大数据系统,设计高实用的安全多方计算 协 议 , 并 兼 容 目 前 主 流 的 计 算 框 架 , 例 如 MapReduce、Spark 和 TensorFlow 等,是促进安全 多方计算应用于实际的关键。因此,性能优化问题 一直是这一类研究亟待解决的问题。
(4)研究安全增强的 Intel SGX 应用,进一步 提升性能:虽然 Intel SGX 技术能够有效地解决大 数据计算环境下云平台上应用程序和敏感数据的 安全计算问题,但是它在实际应用中也面临着诸多 安全问题和性能瓶颈[130]。正如第 6.3 小结提到的如 何有效地解决敏感代码安全划分与验证,抵抗侧信 道攻击以及内存攻击等安全问题,以及兼容容器与 虚拟化技术减轻 EPC 内存大小受限引起的性能瓶 颈。尤其在隐私计算方面,支持数据密集型计算的 多任务并行处理以及大数据的安全审计等应用。因 此,安全问题与性能优化是未来 Intel SGX 应用需 要亟待解决的问题。
(5)研究高效的通用访问模式隐藏结构:一 方面,基于 ORAM 实现的通用访问模式隐藏结构 在实际应用中面临着较高的性能瓶颈,无法与大数 据计算框架相结合同时满足高效计算和隐私保护 的需求[131,132],因此未来有必要从 ORAM 协议设计 本身入手,进一步地降低计算复杂度提升性能;另 一方面,虽然针对特定计算专门设计的不经意混洗 方法能够有利于与实用的大数据计算框架相结合, 但是当把它们集成到对实时性要求更高的分布式 流式计算框架时,如 Storm、Flink 和 Spark Streaming 等,它们具有不同的计算原语和执行模型,对现有 工作提出了新的设计和性能挑战,因此未来需要研 究一种高效的通用访问模式隐藏结构。
除了以上针对五个研究方向存在的问题值得 进一步研究之外,随着大数据、物联网和人工智能 等产业的发展,各种隐私问题以及隐私保护技术越 来越受到重视。未来的隐私保护研究工作应该重点 关注以下几个新方向:
(1)适用于大数据计算各个环节的通用隐私 保护方案 在基于云平台的大数据计算环境下,主要考虑 数据输入、计算和输出等三个环节可能存在的隐私 泄露风险,采取相对应的隐私保护技术保证数据隐 私。但是正如前面提到的,每种隐私保护技术具有 不同的优势和局限性。目前,越来越多的研究工作 结合多种隐私保护技术解决多个环节的隐私泄露 问题(见第 5.2 节)。例如,结合安全多方计算和区 块链技术构建去中心化场景下多参与方之间的信 任关系。尽管如此,区块链共识机制的安全性和效 率也需要满足实际应用的需要。因此,在大数据计 算环境下,如何充分结合各隐私保护技术的优势, 解决大数据计算各个环节的隐私问题,是设计通用 隐私保护方案的关键点。
(2)针对端边云计算架构的可行隐私保护 随着物联网技术的发展,各种终端设备接入以 及边缘与中心云之间的协作,形成了端边云的三级 计算架构。边缘计算节点往往计算能力有限,适合 于采用计算效率较高的匿名或本地化差分隐私技 术保护数据隐私,但是干扰真实数据影响了可用性 (见第 4.2.1 节)。而云平台的计算资源比较充足, 适合采用隐私性和可用性较高的安全多方计算技 术保护数据隐私,但是其通信开销较高影响了执行 效率(见第 5.4 节)。因此,针对端边云计算架构的 实用场景,未来需要权衡隐私性、可用性和效率等.因素进一步地研究可行的隐私保护方法。
(3)面向多数据源协同训练的隐私保护框架 随着人工智能技术的发展,多数据源期望共享 数据以学习更有价值的模型,即协同训练。另一方 面,随着一系列信息保护法案的出台,个人隐私保 护越来越受重视,数据持有者往往不愿意直接共享 训练数据。已有研究工作[133,134]表明虽然能够依赖 加密、匿名或者本地化差分隐私等手段保护实施集 中式学习的训练数据(见第 3.2 节),但是不能应对 复杂的大数据协同训练环境。另外,联邦学习能够 很好地解决协同训练与个体隐私之间的权衡问题, 但是在一定程度上也限制了模型训练准确性。并且 现有的联邦学习框架本身安全性不可解释,仍然存 在着较多安全问题[31,32]。因此面向多数据源协同训 练的场景,仍需要进一步地完善隐私保护框架。