联邦学习攻防研究综述

联邦学习用于解决数据共享与隐私安全之间的矛盾,旨在通过安全地交互不可逆的信息(如模型参数或梯度更新)来构建一个联邦模型。然而,联邦学习在模型的本地训练、信息交互、参数传递等过程中依然存在恶意攻击和隐私泄漏的风险,这给联邦学习的实际应用带来了重大挑战。文中针对联邦学习在建模和部署过程中存在的攻击行为及相应的防御策略进行了详细调研。首先,简要介绍了联邦学习的基本流程和相关攻防知识;接着,从机密性、可用性和正直性3个角度对联邦学习训练和部署中的攻击行为进行了分类,并梳理了相关的隐私窃取和恶意攻击的最新研究;然后,从防御诚实但好奇(honest-but-curious)攻击者和恶意攻击者两个方向对防御方法进行了划分,并分析了不同策略的防御能力;最后,总结了防御方法在联邦学习实践中存在的问题及可能导致的攻击风险,并探讨了联邦系统的防御策略在未来的发展方向。

引言

大数据和人工智能的快速发展促进了传统产业的变革升级.以数据驱动的人工智能模型(如深度学习)在计算机视觉、语音识别、自然语言理解等领域取得了巨大成功,但在海量数据的准备过程中,往往需要将各个数据源的数据汇聚到一个中心的数据仓库中.然而,不断出现的数据泄漏事件使得人们开始怀疑中心化收集数据的可靠性.联邦学习在这种背景下被提出,它旨在利用去中心化的数据源训练一个中心化的联邦模型,并且在训练的过程中保证原始数据的隐私安全. 联邦学习整体的流程被划分成３个阶段:１)共享模型分发;２)本地模型训练;３)模型信息收集、聚合与模型更新. 虽然联邦学习针对数据共享与隐私安全的冲突提供了一种全新的解决方案,但是它仍然面临４个挑战[１]:１)高昂的通信成本;２)系统异质性;３)数据统计异质性;４)数据安全.前三种挑战被认为是功能性挑战,它们描述了联邦学习在实际应用过程中可能遇到的困难,而如何处理数据安全问题决定了联邦学习在应对各种法律条规 (如一般隐私保护条例[２])时是否具有可行性.在朴素联邦学习框架中,数据的机密性主要依赖于不可逆的信息无法恢复出原始数据这一假设来保证.但是文献[３Ｇ６]证明了可以从传输的模型信息中推断出一些隐私数据.成员推断攻击(MembershipInference)最早在文献[６]中被提出,它旨在利用已训练的模型来判断某一样本是否属于对应的训练集,这在特定的情况下会泄露隐私信息,如判断某个病人的临床记录是否被用于训练与某个疾病相关的分类模型.随着攻击手段的强化,Fredrikson等[７]提出利用已训练模型的预测置信值进行反转攻击(ModelInverＧ sion),Hitaj等[８]则在已有工作的基础上将反转攻击拓展到了多层感知神经网络上,并利用生成对抗网络 (Generative AdversarialNetwork,GAN)恢复出特定类别的数字图片.除了原始数据的隐私安全外,作为各方参与者共同训练的联邦模型也被视为参与者的隐私数据.当联邦模型通过接口 (ApplicationProgrammingInterface,API)向外部开放时,原始的模型参数也存在被窃取的可能[９].

机密性攻击是联邦学习的主要防御方向,但联邦学习的建模目标是利用多方数据训练出更加精准、健壮的联合模型, 而这样的目标很容易被正直性和可用性攻击危害.关于正直性和可用性的定义,本文延续了 Papernot等[１０]的定义,并根据联邦学习的场景进行了对应的修正.其中,正直性攻击被定义为攻击者诱导联合模型在接收特定输入时输出错误结果的行为;可用性攻击被定义为攻击者阻止参与者构建或访问有效联合模型的行为.联邦学习场景中的正直性攻击主要分为两类:对抗攻击[１１Ｇ１２]和后门攻击[１３Ｇ１６].其中,对抗攻击旨在利用目标模型的弱点构造对抗样本,使得目标模型在接收到对抗样本时输出错误的预测结果;而后门攻击旨在将后门触发器嵌入到目标模型中,从而使目标模型在接收到包含触发标志的样本时输出错误的预测结果.与正值性攻击不同,可用性攻击旨在阻止正常参与者构建或访问有效的联邦模型,如利用拒绝访问(DenialofService,DoS)[１７]瘫痪服务器.

为了应对上述机密性、正直性和可用性攻击,多种防御策略被提出.这些防御策略根据攻击者的性质被分为两类,即针对诚实但好奇攻击者的防御策略和针对恶意攻击者(MaliＧ cious)的防御策略.诚实但好奇攻击者表示该参与者遵守设定的训练规则,但对传输数据背后的信息感到好奇;而恶意攻击者则会通过污染数据[１８]和模型[１９]等手段来破坏目标模型的正直性和可用性.诚实但好奇攻击者主要针对机密性攻击,对应的防御手段包括安全多方计算[２０]、同态加密[２１]、信息掩盖[２２Ｇ２３]以及混合方案[１３,２４];而恶意攻击者则针对正直性攻击和可用性攻击,对应的防御策略分为两类(见表１):利用中和策略缓解恶意攻击带来的影响[１２];对恶意攻击行为进行检测,并拒绝其参与联合建模[２５Ｇ２６].

综上所述,联邦学习在建模的过程中面临着巨大的数据安全与模型攻击挑战.文献[６４]只对攻防的基础方法进行介绍,未对联邦学习中的攻防工作进行细致讨论.而在 Chen 等[６５]的讨论中,未对针对模型可用性的攻击策略(如拜占庭攻击)进行综述.本文从机密性、正直性和可用性３种攻击性质出发,重点介绍了联邦学习在建模过程中可能出现的攻击行为,同时从诚实但好奇和恶意两个角度归纳了不同防御策略的优点与缺点,攻防策略的对比如表１所列,最后对联邦学习中攻防场景的发展方向和可能的应用进行了探索与展望.

成为VIP会员查看完整内容

相关内容

联邦学习

关注 199

联邦学习（Federated Learning）是一种新兴的人工智能基础技术，在 2016 年由谷歌最先提出，原本用于解决安卓手机终端用户在本地更新模型的问题，其设计目标是在保障大数据交换时的信息安全、保护终端数据和个人数据隐私、保证合法合规的前提下，在多参与方或多计算结点之间开展高效率的机器学习。其中，联邦学习可使用的机器学习算法不局限于神经网络，还包括随机森林等重要算法。联邦学习有望成为下一代人工智能协同算法和协作网络的基础。

深度学习中知识蒸馏研究综述

专知会员服务

109+阅读 · 2022年8月13日

移动边缘网络中联邦学习效率优化综述

专知会员服务

49+阅读 · 2022年7月9日

「联邦学习隐私保护」最新2022研究综述

专知会员服务

117+阅读 · 2022年4月1日

亚马逊最新《联邦学习》简明综述

专知会员服务

85+阅读 · 2022年2月6日