「大数据计算环境下的隐私保护技术」最新2022研究进展

2022 年 4 月 29 日 专知

【导读】北京大学最新大数据计算环境下隐私保护技术进展。

摘要：

批处理、流式计算和机器学习等分布式的大数据计算环境在云上的广泛部署与应用，为云用户带来了极大的便利，但随之带来的隐私数据泄露事件愈演愈烈。如何在这种云上部署的大数据计算环境下保护数据隐私成为一个研究热点，本文对近些年国内外在该领域的最新隐私保护研究成果及进展进行了全面综述。针对上述大数据计算环境下的参与角色及应用场景，结合不同角色的敌手模型，从计算过程涉及的数据输入、计算和输出等三个环节出发，依据计算数据为明文、密文或可信硬件保护条件下可能存在的隐私泄露风险，总结了对应的 5 类主要研究方向，包括：基于数据分离的隐私保护、基于数据干扰的隐私保护、基于安全多方计算的隐私保护、基于硬件增强的隐私保护和基于访问模式隐藏的隐私保护等，从隐私性、可用性和性能等方面对比分析了现有研究工作的优缺点；最后，展望了大数据计算环境下隐私保护技术的未来研究方向。

引言：

随着云计算与大数据技术的发展，亚马逊、微软、华为与阿里等主流云服务提供商（Cloud Service Provider, CSP）支持云端部署分布式存储和计算框架，主要包括批量计算框架（如 MapReduce[1]）、流式计算框架（如 Spark Streaming[2]、Storm1、Flink[3]）和机器学习框架（如 TensorFlow[4]）等，为用户提供持续可靠、可扩展且高吞吐量的大数据存储和计算服务。但是，在这种外包的大数据计算环境下，由于数据所有权和使用权的分离，在计算过程涉及的数据输入、计算和输出等阶段都有可能发生隐私数据泄露的风险。因此，如何在大数据计算环境下保护敏感数据的隐私性（privacy），同时保证数据的可用性（utility）和计算的高效性（efficiency）成为大数据隐私保护领域的研究热点之一。

近年来，隐私数据（private data）泄露事件频频发生，造成的影响也越来越严重。从泄露的数据类型来看2，泄露最多的隐私数据是个人基本信息，其次是用户账号密码信息，再者是个体敏感信息。并且个体敏感信息泄露呈现明显增长的趋势，主要包括人脸图像、指纹和虹膜等生物识别敏感信息、交易收入敏感信息和医疗病历敏感信息等三类数据。国内外隐私泄露事件举例3：2016 年 5 月，美国职业社交网站LinkedIn宣布近1.67亿用户的电子邮箱地址和密码发生泄露，并被黑客组织公开销售；2017 年 9 月，美国知名信用机构 Equifax 遭黑客攻击，导致近 1.43 亿用户的信用卡和驾照号码等个人信息被泄露；2018 年 3 月，美国社交媒体 Facebook 承认其近 5000 万用户的个人信息被一款性格测试软件非法收集；2019 年 2 月，中国深网视界科技有限公司（SenseNets）被曝出超过 250 万人的人脸数据泄露；2020 年 5 月，某脱口秀艺人控诉中信银行为“配合大客户的需要”，在未经本人允许的情况下违法泄露了个人账户交易。为了避免隐私泄露带来的负面影响和经济损失，一系列隐私保护条例和法规被相继提出4。例如，国内已经实施的《中华人民共和国网络安全法》和最近通过的《中华人民共和国个人信息保护法》，明确规定了个人信息收集、处理和利用的基本规范和主要法律责任；国际上，欧盟已经实施的《通用数据保护条例》（General Data Protection Regulation, GDPR），加强了欧洲居民的个人数据保护；美国加利福尼亚州已经颁布且正式生效的《加州消费者隐私法案》（California Consumer Privacy Act, CCPA），旨在加强消费者的数据安全与隐私保护。但是，仅仅从立法层面约束隐私泄露事件的发生是不够的，面对多样化的业务场景和问题挑战，从技术层面引入一些隐私保护技术是非常必要的。近年来，云上数据隐私问题已经受到了学术界和工业界的广泛关注和重视。分析大数据计算环境下数据处理流程，主要存在三类隐私泄露问题：数据输入阶段的原始数据（raw data）隐私泄露，计算过程中的隐私数据被攻击者窃取，以及不可信的数据消费者在结果输出阶段试图推断出数据隐私。首先，在数据输入阶段，如果对数据所有者的敏感信息不采取标记和去隐私处理，那么有关个体的隐私数据将可能被不可信的云服务提供商或者其他攻击者恶意窃取，造成个体隐私的直接泄露。为了在数据输入阶段保护个体隐私，目前行之有效的手段是采取数据分离或者数据干扰等方法。其一，数据分离方法主要考虑到隐私数据的位置，一般将数据所有者的非敏感数据上传到公有云，敏感数据被分离到本地的私有云，这保证了敏感数据在可信的私有云环境进行存储和计算。

但是，在实践中发现，数据分离方法会增加私有云与公有云之间的通信开销，甚至通信数据存在被恶意敌手截获的风险。例如，主流的 MapReduce 计算框架是基于单个云而设计的，并不适用于混合云环境；另外，联邦学习下本地和第三方参数服务器之间传输的参数也属于模型隐私。其二，本地化差分隐私（Local Differential Privacy, LDP）技术是目前数据干扰方法中保护输入阶段个体隐私的一种重要手段。该技术不要求数据所有者必须信任云服务提供商，通过对敏感信息进行本地化随机响应，达到干扰真实数据的效果。不可避免地，在云端对失真数据进行分布式计算会严重地影响结果的准确性。因此，如何在保证原始数据隐私性的同时，有效地提高数据的可用性已经成为学术界关切的热点问题。其次，在数据计算阶段，如果存储在云端的数据直接以明文的形式参与计算，那么不可信的云服务提供商或者计算参与方可以伪装成半诚实敌手直接窥探到部分甚至整体数据，进一步推测出个体隐私信息，造成计算过程中的隐私泄露。为了保证数据的机密性和计算隐私性，目前行之有效的手段是对传输数据进行加密，即加密传输，并结合安全多方计算（Secure Multi-Party Computation, SMC）、硬件增强或者访问模式隐藏等主流方法实现隐私计算。其中，设计安全多方计算协议需要依赖混淆电路（Garbled Circuits, GC）、秘密共享或者同态加密（Homomorphic Encryption, HE）等密码学技术，在互不信任的多个参与方之间协作计算时，SMC 保证任何一方都无法窃取其他各方的数据隐私。特别地，同态加密使得在密文上执行计算成为可能，即密文计算。但是在实际应用中，对于复杂的计算任务其执行效率较低且计算开销较高。为了解决密文计算带来的性能瓶颈，学术界一方面对更加实用且高效的安全多方计算协议开展研究，另一方面依赖可信硬件保护提出“加密传输-明文计算”的优化策略[17,116]。Intel SGX（Intel Software Guard Extensions）属于硬件增强方法中的代表性技术，它为明文计算提供了安全的可信执行环境（Trusted Execution Environment, TEE）。相比 SMC，Intel SGX 技术既能保护数据的机密性和隐私性，也保证计算代码的安全执行。尽管如此，攻击者仍然能够通过观察内存层的访问模式[5]和网络层的访问模式[6]，进一步地推测出数据隐私。不经意随机访问机（Oblivious RAM, ORAM）和不经意混洗（oblivious shuffle）是目前主流的两种访问模式隐藏技术，它们能够实现不经意计算（oblivious computing），防止攻击者观察计算过程中的访问模式。再者，在计算结果输出阶段，如果数据不经过去隐私化处理而直接发布，那么攻击者可以结合背景知识分析输出结果，窃取其中可以追溯到特定个体的敏感信息，造成输出阶段的隐私泄露。为了解决输出隐私问题，目前主要采用数据干扰方法，如数据匿名（data anonymization）和中心化差分隐私（Centralized Differential Privacy, CDP）技术。但是干扰数据会影响数据的可用性，因此需要考虑隐私性和可用性权衡问题。

近年来，国内外学者研究了隐私保护技术在数据挖掘隐私、大数据安全与隐私以及机器学习隐私等领域的应用，形成了一些综述性的文章：文献[7] 重点分类阐述了数据失真、数据加密和限制发布等隐私保护技术在数据库领域的应用；文献[8]重点梳理了基于直方图、基于划分和基于回归分析的差分隐私技术在数据发布和分析中的应用；文献[9]重点对比分析了隐私保护数据挖掘（Privacy-Preserving Data Mining, PPDM）中的数据匿名和数据扰动技术；文献[10]聚焦大数据安全与隐私领域，梳理及总结了隐私保护、信任和访问控制等角度的关键技术，包括数据匿名、数据水印、数据溯源和风险自适应的访问控制等技术；文献[11]从 MapReduce 计算的数据安全性和隐私性出发，调研并分析了所面临的安全和隐私挑战、敌手能力以及现有的安全和隐私协议等内容；文献[12,13]聚焦机器学习隐私，重点分析和总结了差分隐私、同态加密和安全多方计算等技术在该领域的研究成果。除此之外，已有的大多数综述文章侧重于梳理某项或者某类隐私保护技术的基础理论与应用[130,132]，形成专项技术综述，却缺少对大数据计算全过程面临的隐私问题及不同隐私保护技术的总结分析。特别是目前大数据隐私问题严重地影响了计算框架的推广与应用，因此有必要梳理有关大数据计算隐私的研究进展。本文区别于已有综述文章，重点梳理了与大数据计算环境相关的隐私保护研究工作。如图 1 所示为本文结构图，展示了不同隐私保护技术之间的联系与分类依据。

本文侧重于从计算过程涉及的数据输入、计算和输出等三个环节出发，依据计算数据为明文、密文或可信硬件保护等条件下可能存在的隐私泄露风险和技术挑战，将分离执行、联邦学习、差分隐私、安全多方计算、Intel SGX 等主流的隐私保护技术划分为 5 大类，包括基于数据分离的隐私保护、基于数据干扰的隐私保护、基于安全多方计算的隐私保护、基于硬件增强的隐私保护和基于访问模式隐藏的隐私保护等。每一类隐私保护技术侧重于解决不同阶段所面临的隐私问题，并依赖不同的解决思路。例如，差分隐私通过拉普拉斯、指数和随机响应等扰动机制干扰数据，保证数据输入阶段或输出阶段隐私；安全多方计算依赖混淆电路、秘密共享和同态加密等密码学手段，设计协议保证计算过程中数据的机密性；联邦学习通过在本地联合训练模型保护训练数据的隐私，但是已有研究表明联邦学习存在着参数泄露的风险，需要进一步地依赖差分隐私或者安全多方计算等技术保护训练阶段的模型隐私；Intel SGX 通过提供可信的执行环境保证数据以明文形式计算的安全性。此外，本文从隐私性、可用性和性能等方面对比分析了现有研究工作的优缺点；最后对未来研究方向进行探讨及展望，为今后进一步研究提供参考。

2 大数据计算环境现状及隐私问题

本节对大数据计算环境现状及存在的隐私问题进行概述，主要介绍了大数据计算环境下的参与角色以及部署框架，并分析了敌手模型、存在的隐私问题与挑战、以及主要研究方向。

3 基于数据分离的隐私保护

随着数据持有者的数据不断增长，对数据的维护成本越来越高，导致数据处理的部分或者全部任务从本地（或私有云）迁移到公有云。虽然数据处理的位置发生了变化，但是对敏感数据的隐私要求没有改变。假设云服务提供商作为不可信的第三方，一旦存在内部攻击者或者软件脆弱性等潜在的安全风险，将直接造成数据隐私泄露。为了解决上述问题，研究者们提出根据数据的敏感性分离存储和计算数据的解决思路，即基于数据分离的隐私保护方法。相比其他的隐私保护方法，该方法保证了敏感数据在本地或者私有云环境被安全高效的处理，而不会被迁移到不可信的公有云环境。目前，基于数据分离的隐私保护相关研究工作主要包括基于敏感数据标记的分布式计算和基于数据分离的联邦学习。

4 基于数据干扰的隐私保护

近些年发生的隐私泄露事件都表明未经过脱敏处理的数据在云上发布或者共享很容易泄露数据隐私，特别是个体敏感信息。在基于云的大数据计算环境下，随着大数据分析的普及，云服务提供商越来越热衷于聚合来自数据持有者的数据，以获取更有价值的结果。但是假设云服务提供商或者数据消费者不可信，对数据具有访问权限的云平台内部攻击者可能窥探其中的个体敏感信息，造成输入隐私泄露。具有背景知识的外部攻击者可能提交恶意程序获取特定的输出结果，试图推测出能够关联到特定个体的敏感信息，造成输出隐私泄露。为了解决上述问题，研究者们提出基于数据干扰的隐私保护。相比其他的隐私保护方法，该方法会造成数据失真，通过牺牲数据的精度来增强隐私保护水平，因此隐私性和可用性的权衡问题一直是该研究方向的热点问题。目前，基于数据干扰的隐私保护方法中最主要的两种隐私保护技术是数据匿名和差分隐私。

5 基于安全多方计算的隐私保护

在基于云平台的大数据计算环境下，假设多个数据持有者之间互不信任，但是出于商业合作的目的，他们需要共享数据以联合分析出更有价值的信息。如果对于共享的数据不进行加密或去隐私处理，那么将会直接破坏共享数据的机密性和隐私性。要么在数据共享之前对其进行干扰，但是会严重制约联合分析的任务类型和数据可用性，不适用于复杂的联合计算任务。要么对数据集进行加密后传输，因此，需要采取一种能够在敏感数据集上进行安全计算的隐私保护技术。目前，学术界对安全多方计算协议有较多的理论研究[89-91]，它允许互不信任的各方在不泄露隐私数据的情况下进行联合计算。但是，其在大数据的实际应用中扩展性较差，一方面是在密文上执行复杂计算任务时其执行效率非常低，一般用执行时间或计算成本来衡量；另一方面是多方联合计算会带来较高的通信开销，一般用通信成本衡量。本节主要展开介绍大数据计算环境下高实用的安全多方计算研究工作进展。

6 基于硬件增强的隐私保护

在基于云平台的大数据计算环境下，采用密码学手段加密数据并在其上执行安全计算存在计算开销和通信开销的性能瓶颈。出于隐私性和高效性的权衡，研究学者提出了基于硬件增强的“加密传输，明文计算”思路，即数据被加密传输但在可信硬件支持下高效地执行明文计算。特别地，当云平台部署的操作系统被妥协时，如何有效地抵抗具有根访问权限的攻击者通过执行恶意程序窃取数据隐私是一个值得被研究的问题。目前行之有效的隐私保护手段是从硬件增强的角度提供隐私保护，许多研究工作是在大数据计算环境下借助 Intel SGX 技术的加密内存来保护关键代码和数据的机密性。相比其他的TEE技术，Intel SGX 基于安全硬件的最小可信计算基（Trusted Computing Base, TCB）提供了用户空间的安全隔离执行环境，同时能够兼容虚拟化及容器技术；而 AMD（advanced microdevice）硬件虚拟化技术基于可信的特权软件（hypervisor）提供了操作系统级别的安全隔离执行环境，其安全性依赖特权软件的安全性，特别是当特权软件被妥协时其安全性受到威胁；TrustZone 技术通过 CPU 将系统划分为安全和非安全的两种隔离执行环境，其主要应用到嵌入式平台。因此，在基于云平台的大数据计算环境下，采用 Intel SGX 硬件增强技术保护计算过程中数据隐私是比较热门的，本节主要梳理该领域的大数据计算框架以及计算性能优化的研究工作。

7 基于访问模式隐藏的隐私保护

尽管数据加密可以很好地隐藏数据的机密性，但是不能隐藏一些元数据，比如访问模式、数据来源和去向等。云平台内部攻击者可以利用这些元数据获得两种隐私信息，其一是根据访问模式推测出数据的相关属性，如果攻击者知道有关数据的背景知识，那么它可以推测出传输数据的明文信息；其二是根据数据来源和去向推测数据发送方和接收方的身份，虽然已有一些元数据隐藏技术，但是它们无法抵抗能力更强的节点访问型攻击者[11]。Zheng 等人[117]指出访问模式泄露攻击发生在内存层和网络层，当恶意操作系统通过监视应用程序的页面访问来推断有关加密数据的信息时，云平台会发生内存层的访问模式泄漏。而网络层的访问模式泄漏发生在分布式系统的任务调度和消息传输中，尽管通过网络发送的消息数据是加密的，但是某些分布式任务（例如排序或散列分区）也会产生披露加密数据隐私的网络流量。严重地，攻击者可以通过分析计算过程中网络流量的特点实施流量分析攻击。为了解决内存层和网络层的访问模式泄露，目前主要采用不经意随机访问机 ORAM 和不经意混洗技术，在云服务提供商不可信的安全假设下，实现不经意计算来隐藏访问模式。在实际应用中，基于访问模式隐藏的隐私保护方法一般不会单独使用，通常在数据加密或可信硬件支持等条件下采取该方法进一步地增强安全和保护隐私，本节重点总结在大数据计算环境下该方向的相关研究工作。

8 总结和展望

本文对大数据计算环境下的隐私保护技术研究进展进行了综述。首先分析了大数据计算环境下的敌手模型、隐私问题与挑战，以及隐私保护的研究方向；接着，根据隐私保护技术的不同，分别总结分析了基于数据分离的隐私保护、基于数据干扰的隐私保护、基于安全多方计算的隐私保护、基于硬件增强的隐私保护、以及基于访问模式隐藏的隐私保护等研究方向的最新研究进展，并对比分析了不同隐私保护技术的优缺点；最后，展望了大数据计算环境下隐私保护技术的未来研究方向。期望本文的工作，能给以后的研究者提供有益的参考与借鉴，为大数据隐私保护的进一步发展做出贡献。综合分析可知，不同隐私保护技术具有不同的技术特点、局限性和适用场景。在大数据计算环境下应用隐私保护技术时，数据分离和匿名技术侧重于在数据输入阶段保护原始数据的敏感信息，其中数据分离技术主要存在通信开销较高的局限性，适用于本地或私有云环境具有较强算力的隐私保护场景，匿名技术实现简单但是主要面临着更强背景知识攻击的困扰；差分隐私技术侧重于在数据输入和结果输出阶段扰动数据，在实际应用中计算效率较高，但是主要存在可用性不高的局限性，适用于计算节点算力较弱且对隐私保护水平有一定要求的场景；安全多方计算、Intel SGX 和不经意计算等技术侧重于在数据计算过程中保护数据的隐私性和计算的安全性，在实际应用中，安全多方计算主要存在通信开销较高和执行效率较低的局限性，适用于多方分布式联合计算的隐私保护场景；Intel SGX 技术需要可信硬件辅助以在安全隔离环境下执行明文计算，在应用中主要面临侧信道攻击的安全威胁；不经意计算主要依赖 ORAM 或不经意混洗手段隐藏访问模式，但是这些手段本身存在低效性和特殊性，特别是 ORAM 在实际应用中带来了较高的计算复杂度。因此，未来在大数据计算环境下应用这些隐私保护技术，仍然存在很多问题需要亟待解决，其中以下五个问题值得进一步地研究。

（1）研究低带宽网络环境下的高效数据分离

保护：目前，数据分离技术主要存在通信开销较高的局限，不仅表现在混合云中跨云聚合时的通信数据量和通信总时耗（见第 3.1.2 节），也体现在联邦学习中达到预定模型精度时，本地客户端与云端服务器之间的通信数据量和通信轮次（见第 3.2 节）。为了适用低带宽网络环境，特别是随着越来越多的通信带宽和电力有限的终端设备接入，降低数据分离方法中的通信开销提高通信效率显得十分重要。因此，需要研究低带宽网络环境下的高效数据分离保护，例如通过对键的独立划分降低公有与与私有云之间传输的元组数量，压缩模型或者选择部分客户端参与更新降低联邦学习中传输的模型参数量，以及降低模型精度来减少通信轮次等方式。

（2）研究针对复杂数据类型的高可用差分隐私保护：目前，大部分研究工作重点关注简单数据类型的差分隐私保护，例如针对离散分类数据的本地化差分隐私地频率估计以及针对连续数值数据的本地化差分隐私地均值估计。而对于大数据计算中的半结构化或者非结构化数据研究较少，例如键值型数据或者图数据等复杂数据类型。在实际应用中，参与大数据计算的主要是这些复杂数据类型。另外，现有方案对键值数据进行扰动时忽略了键与值之间的对应关系[76]，一方面将造成隐私泄露降低隐私性，另一方面将导致过多的噪音被添加，影响了可用性。因此，在实际应用场景下，权衡复杂数据类型扰动的隐私性和可用性，设计出高可用的差分隐私保护是未来这一类研究方向的重点。

（3）研究实用型的安全多方计算协议，进一步提升性能：虽然现有的安全计算协议能够保护计算过程中数据隐私，但是当真正应用到海量数据的安全计算时，它面临着较高的通信开销和计算开销瓶颈（见第 5.4 节）。为了支持多用户并发访问且快速响应的大数据系统，设计高实用的安全多方计算协议，并兼容目前主流的计算框架，例如 MapReduce、Spark 和 TensorFlow 等，是促进安全多方计算应用于实际的关键。因此，性能优化问题一直是这一类研究亟待解决的问题。

（4）研究安全增强的 Intel SGX 应用，进一步提升性能：虽然 Intel SGX 技术能够有效地解决大数据计算环境下云平台上应用程序和敏感数据的安全计算问题，但是它在实际应用中也面临着诸多安全问题和性能瓶颈[130]。正如第 6.3 小结提到的如何有效地解决敏感代码安全划分与验证，抵抗侧信道攻击以及内存攻击等安全问题，以及兼容容器与虚拟化技术减轻 EPC 内存大小受限引起的性能瓶颈。尤其在隐私计算方面，支持数据密集型计算的多任务并行处理以及大数据的安全审计等应用。因此，安全问题与性能优化是未来 Intel SGX 应用需要亟待解决的问题。

（5）研究高效的通用访问模式隐藏结构：一方面，基于 ORAM 实现的通用访问模式隐藏结构在实际应用中面临着较高的性能瓶颈，无法与大数据计算框架相结合同时满足高效计算和隐私保护的需求[131,132]，因此未来有必要从 ORAM 协议设计本身入手，进一步地降低计算复杂度提升性能；另一方面，虽然针对特定计算专门设计的不经意混洗方法能够有利于与实用的大数据计算框架相结合，但是当把它们集成到对实时性要求更高的分布式流式计算框架时，如 Storm、Flink 和 Spark Streaming 等，它们具有不同的计算原语和执行模型，对现有工作提出了新的设计和性能挑战，因此未来需要研究一种高效的通用访问模式隐藏结构。

除了以上针对五个研究方向存在的问题值得进一步研究之外，随着大数据、物联网和人工智能等产业的发展，各种隐私问题以及隐私保护技术越来越受到重视。未来的隐私保护研究工作应该重点关注以下几个新方向：

（1）适用于大数据计算各个环节的通用隐私保护方案在基于云平台的大数据计算环境下，主要考虑数据输入、计算和输出等三个环节可能存在的隐私泄露风险，采取相对应的隐私保护技术保证数据隐私。但是正如前面提到的，每种隐私保护技术具有不同的优势和局限性。目前，越来越多的研究工作结合多种隐私保护技术解决多个环节的隐私泄露问题（见第 5.2 节）。例如，结合安全多方计算和区块链技术构建去中心化场景下多参与方之间的信任关系。尽管如此，区块链共识机制的安全性和效率也需要满足实际应用的需要。因此，在大数据计算环境下，如何充分结合各隐私保护技术的优势，解决大数据计算各个环节的隐私问题，是设计通用隐私保护方案的关键点。

（2）针对端边云计算架构的可行隐私保护随着物联网技术的发展，各种终端设备接入以及边缘与中心云之间的协作，形成了端边云的三级计算架构。边缘计算节点往往计算能力有限，适合于采用计算效率较高的匿名或本地化差分隐私技术保护数据隐私，但是干扰真实数据影响了可用性（见第 4.2.1 节）。而云平台的计算资源比较充足，适合采用隐私性和可用性较高的安全多方计算技术保护数据隐私，但是其通信开销较高影响了执行效率（见第 5.4 节）。因此，针对端边云计算架构的实用场景，未来需要权衡隐私性、可用性和效率等.因素进一步地研究可行的隐私保护方法。

（3）面向多数据源协同训练的隐私保护框架随着人工智能技术的发展，多数据源期望共享数据以学习更有价值的模型，即协同训练。另一方面，随着一系列信息保护法案的出台，个人隐私保护越来越受重视，数据持有者往往不愿意直接共享训练数据。已有研究工作[133,134]表明虽然能够依赖加密、匿名或者本地化差分隐私等手段保护实施集中式学习的训练数据（见第 3.2 节），但是不能应对复杂的大数据协同训练环境。另外，联邦学习能够很好地解决协同训练与个体隐私之间的权衡问题，但是在一定程度上也限制了模型训练准确性。并且现有的联邦学习框架本身安全性不可解释，仍然存在着较多安全问题[31,32]。因此面向多数据源协同训练的场景，仍需要进一步地完善隐私保护框架。

专知便捷查看