联邦学习隐私保护研究进展

摘要：针对隐私保护的法律法规相继出台，数据孤岛现象已成为阻碍大数据和人工智能技术发展的主要瓶颈。联邦学习作为隐私计算的重要技术被广泛关注。从联邦学习的历史发展、概念、架构分类角度，阐述了联邦学习的技术优势，同时分析了联邦学习系统的各种攻击方式及其分类，讨论了不同联邦学习加密算法的差异。总结了联邦学习隐私保护和安全机制领域的研究，并提出了挑战和展望。

http://www.infocomm-journal.com/bdr/CN/10.11959/j.issn.2096-0271.2021030

关键词：联邦学习 ; 联邦学习系统攻击 ; 隐私保护 ; 加密算法

论文引用格式：

王健宗, 孔令炜, 黄章成, 等. 联邦学习隐私保护研究进展[J]. 大数据, 2021, 7(3): 130-149.

WANG J Z, KONG L W, HUANG Z C, et al. Research advances on privacy protection of federated learning[J]. Big Data Research, 2021, 7(3): 130-149.

图片

1 引言

大数据、人工智能和云产业等的爆发式发展，一方面为传统行业带来升级变革的新机遇，另一方面也给数据和网络安全带来了新挑战。不同行业的公司会收集大量的数据信息，同一企业下不同层级的部门也会收集不同的信息，由于行业间的竞争和垄断，以及同一企业下不同系统和业务的闭塞性与阻隔性，很难实现数据信息的交流与整合。当不同的企业之间，以及同一企业下属不同部门之间需要合作进行联合建模时，将面临跨越重重数据壁垒的考验。这类挑战也被称为数据孤岛问题。

早期的分布式计算试图通过整合不同来源的数据进行分布式的建模，从而解决这类数据孤岛问题。分布式建模将具有庞大计算量的任务部署到多台机器上，提升了计算效率，减少了任务耗能。但是分布式机器学习依旧存在问题，重量级的分布式系统架构通常会产生巨大的沟通成本，影响数据的传输和处理效率。随着人工智能技术的进一步发展和更广泛的应用，数据隐私敏感性问题日益被重视。大规模的数据传输不可避免地会涉及隐私泄露问题，对于异构数据的联合训练和隐私安全问题，依然没有找到一个令人满意的解决方案。

联邦学习（federated learning，FL）给上述难题提供了解决方案。联邦学习是由谷歌公司在2016年率先提出的概念，该技术在数据不共享的情况下完成联合建模共享模型。具体来讲，各个数据持有方（个人/企业/机构）的自有数据不出本地，通过联邦系统中加密机制下的模型参数交换方式（即在不违反数据隐私法规的情况下），联合建立一个全局的共享模型，建好的模型为所有参与方共享使用。相对于分布式计算，联邦学习有更多的优势，例如在隐私保护领域，联邦学习从算法层面上设计并考虑了客户端间传输信息的加密。本文主要从隐私保护和安全加密的角度，对联邦学习进行系统综述。

本文的主要贡献如下。

● 本文对联邦学习的历史进行了详细的叙述，从安全隐私的分布式学习发展到现在的联邦学习系统，总结了联邦学习发展的历程。

● 本文从新的角度阐述了联邦学习的类型。与传统方式不同，本文从面向企业（to business，ToB）和面向客户（to customer，ToC）的应用场景的区别出发，分析了联邦学习的不同。

● 详细地从联邦学习攻击的角度分析联邦系统面临的各种可能的攻击手段，并系统地将联邦学习的攻击手段进行了分类总结。

● 联邦学习的加密机制在一定程度上可以抵御一些联邦学习攻击，或者大大增加攻击的难度。本文从加密算法的角度详细讨论了联邦学习的加密机制。

成为VIP会员查看完整内容

相关内容

联邦学习

关注 199

联邦学习（Federated Learning）是一种新兴的人工智能基础技术，在 2016 年由谷歌最先提出，原本用于解决安卓手机终端用户在本地更新模型的问题，其设计目标是在保障大数据交换时的信息安全、保护终端数据和个人数据隐私、保证合法合规的前提下，在多参与方或多计算结点之间开展高效率的机器学习。其中，联邦学习可使用的机器学习算法不局限于神经网络，还包括随机森林等重要算法。联邦学习有望成为下一代人工智能协同算法和协作网络的基础。

基因组数据隐私保护理论与方法综述

专知会员服务

16+阅读 · 2021年8月6日

UCL最新「机器学习隐私」综述论文，概述隐私挑战

专知会员服务

37+阅读 · 2021年7月11日

联邦学习中的隐私和鲁棒性:攻击和防御, 杨强等学者最新综述论文，16页pdf

专知会员服务

104+阅读 · 2021年2月3日

机器学习的安全问题及隐私保护

专知会员服务

40+阅读 · 2020年12月20日