联邦学习(Federated Learning)是一种新兴的人工智能基础技术,在 2016 年由谷歌最先提出,原本用于解决安卓手机终端用户在本地更新模型的问题,其设计目标是在保障大数据交换时的信息安全、保护终端数据和个人数据隐私、保证合法合规的前提下,在多参与方或多计算结点之间开展高效率的机器学习。其中,联邦学习可使用的机器学习算法不局限于神经网络,还包括随机森林等重要算法。联邦学习有望成为下一代人工智能协同算法和协作网络的基础。

VIP内容

摘要:针对隐私保护的法律法规相继出台,数据孤岛现象已成为阻碍大数据和人工智能技术发展的主要瓶颈。联邦学习作为隐私计算的重要技术被广泛关注。从联邦学习的历史发展、概念、架构分类角度,阐述了联邦学习的技术优势,同时分析了联邦学习系统的各种攻击方式及其分类,讨论了不同联邦学习加密算法的差异。总结了联邦学习隐私保护和安全机制领域的研究,并提出了挑战和展望。

http://www.infocomm-journal.com/bdr/CN/10.11959/j.issn.2096-0271.2021030

关键词:联邦学习 ; 联邦学习系统攻击 ; 隐私保护 ; 加密算法

论文引用格式:

王健宗, 孔令炜, 黄章成, 等. 联邦学习隐私保护研究进展[J]. 大数据, 2021, 7(3): 130-149.

WANG J Z, KONG L W, HUANG Z C, et al. Research advances on privacy protection of federated learning[J]. Big Data Research, 2021, 7(3): 130-149.

图片

1 引言

大数据、人工智能和云产业等的爆发式发展,一方面为传统行业带来升级变革的新机遇,另一方面也给数据和网络安全带来了新挑战。不同行业的公司会收集大量的数据信息,同一企业下不同层级的部门也会收集不同的信息,由于行业间的竞争和垄断,以及同一企业下不同系统和业务的闭塞性与阻隔性,很难实现数据信息的交流与整合。当不同的企业之间,以及同一企业下属不同部门之间需要合作进行联合建模时,将面临跨越重重数据壁垒的考验。这类挑战也被称为数据孤岛问题。

早期的分布式计算试图通过整合不同来源的数据进行分布式的建模,从而解决这类数据孤岛问题。分布式建模将具有庞大计算量的任务部署到多台机器上,提升了计算效率,减少了任务耗能。但是分布式机器学习依旧存在问题,重量级的分布式系统架构通常会产生巨大的沟通成本,影响数据的传输和处理效率。随着人工智能技术的进一步发展和更广泛的应用,数据隐私敏感性问题日益被重视。大规模的数据传输不可避免地会涉及隐私泄露问题,对于异构数据的联合训练和隐私安全问题,依然没有找到一个令人满意的解决方案。

联邦学习(federated learning,FL)给上述难题提供了解决方案。联邦学习是由谷歌公司在2016年率先提出的概念,该技术在数据不共享的情况下完成联合建模共享模型。具体来讲,各个数据持有方(个人/企业/机构)的自有数据不出本地,通过联邦系统中加密机制下的模型参数交换方式(即在不违反数据隐私法规的情况下),联合建立一个全局的共享模型,建好的模型为所有参与方共享使用。相对于分布式计算,联邦学习有更多的优势,例如在隐私保护领域,联邦学习从算法层面上设计并考虑了客户端间传输信息的加密。本文主要从隐私保护和安全加密的角度,对联邦学习进行系统综述。

本文的主要贡献如下。

● 本文对联邦学习的历史进行了详细的叙述,从安全隐私的分布式学习发展到现在的联邦学习系统,总结了联邦学习发展的历程。

● 本文从新的角度阐述了联邦学习的类型。与传统方式不同,本文从面向企业(to business,ToB)和面向客户(to customer,ToC)的应用场景的区别出发,分析了联邦学习的不同。

● 详细地从联邦学习攻击的角度分析联邦系统面临的各种可能的攻击手段,并系统地将联邦学习的攻击手段进行了分类总结。

● 联邦学习的加密机制在一定程度上可以抵御一些联邦学习攻击,或者大大增加攻击的难度。本文从加密算法的角度详细讨论了联邦学习的加密机制。

成为VIP会员查看完整内容
0
12

最新论文

In Federated Learning (FL), the clients learn a single global model (FedAvg) through a central aggregator. In this setting, the non-IID distribution of the data across clients restricts the global FL model from delivering good performance on the local data of each client. Personalized FL aims to address this problem by finding a personalized model for each client. Recent works widely report the average personalized model accuracy on a particular data split of a dataset to evaluate the effectiveness of their methods. However, considering the multitude of personalization approaches proposed, it is critical to study the per-user personalized accuracy and the accuracy improvements among users with an equitable notion of fairness. To address these issues, we present a set of performance and fairness metrics intending to assess the quality of personalized FL methods. We apply these metrics to four recently proposed personalized FL methods, PersFL, FedPer, pFedMe, and Per-FedAvg, on three different data splits of the CIFAR-10 dataset. Our evaluations show that the personalized model with the highest average accuracy across users may not necessarily be the fairest. Our code is available at https://tinyurl.com/1hp9ywfa for public use.

0
0
下载
预览
Top