移动边缘网络中联邦学习效率优化综述

联邦学习(federated learning)将模型训练任务部署在移动边缘设备,参与者只需将训练后的本地模型发送到服务器参与全局聚合而无须发送原始数据,提高了数据隐私性．然而, 解决效率问题是联邦学习落地的关键．影响效率的主要因素包括设备与服务器之间的通信消耗、模型收敛速率以及移动边缘网络中存在的安全与隐私风险．在充分调研后, 首先将联邦学习的效率优化归纳为通信、训练与安全隐私保护３类．具体来说, 从边缘协调与模型压缩的角度讨论分析了通信优化方案;从设备选择、资源协调、聚合控制与数据优化４个方面讨论分析了训练优化方案;从安全与隐私的角度讨论分析了联邦学习的保护机制．其次,通过对比相关技术的创新点与贡献,总结了现有方案的优点与不足,探讨了联邦学习所面临的新挑战．最后,基于边缘计算的思想提出了边缘化的联邦学习解决方案,在数据优化、自适应学习、激励机制和隐私保护等方面给出了创新理念与未来展望．

近年来,深度学习(deeplearning,DL)[１]的发展为人工智能技术的进步创造了动力．随着物联网技术的发展,移动设备都具备强大的芯片、传感器以及计算能力,能够在处理高级任务的同时,收集和产生更丰富的数据[２]．这些数据为深度学习的研究提供了有利的基础条件,是深度学习不可或缺的部分．传统以云为中心的深度学习,需要先收集移动设备的数据,包括物联网设备和智能手机收集的数据,例如照片、视频和位置等信息[３Ｇ５],并全部发送到基于云的服务器或数据中心进行处理与训练．然而, 这种方法存在２个问题:

**１) 网络负担．**在万物互联的时代,移动设备每分每秒都产生数以亿计的数据[６],这些数据全部上传到云服务器会占用大量的网络带宽．同时,以云为中心的学习方式传输延迟高,不能及时进行数据交互,给网络带来不必要的负担．

２)数据隐私[７]．数据所有者对隐私越来越注重,用户往往不愿共享自己的个人数据．许多国家和组织也制定了相关隐私政策,例如欧盟委员会制定的“GeneralDataProtectionRegulation”(«通用数据保护条例»)[８]．因此,利用一些边缘设备的计算和存储能力,把计算推向边缘[９]被提出作为一种解决方案．

因此, 联邦学习(federatedlearning,FL)[１０]应运而生,目的在于保护大数据环境下模型学习中涉及的用户数据隐私．在联邦学习训练过程中,只需要将所有移动设备在其私有数据上训练的本地模型上传到云服务器中进行聚合,不涉及数据本身,很大程度上提高了用户数据的隐私性．同时,边缘计算的提出是为了缓解云中心的计算压力,目的是把云服务中心的计算任务卸载到边缘[１１],这恰好与联邦学习的计算模式相适应,为联邦学习创造了有利条件．在移动设备上训练模型,除了保证数据不离开本地,还能让计算更加靠近数据源以节省通信成本．

然而,无线传感网络[１２Ｇ１３]等边缘环境复杂、设备能力的差异性、数据质量等因素,使得如何在边缘网络高效率地执行联邦学习是当前面临的关键问题．一方面,一些实时性强的应用需要及时得到反馈,例如车联网服务[１４]等;另一方面,在物联网快速发展的时代,爆发式增长的数据需要高效的处理机制才能发挥其作用．因此,对联邦学习效率的研究是非常必要的．目前,联邦学习的热度呈持续增长的趋势．

本文首先对联邦学习效率优化方案进行了广泛调研,阐述了联邦学习的技术背景以及深度学习等基础知识,并说明了边缘计算与联邦学习的基本原理以及二者之间的相互作用与影响．其次,分析了联邦学习中存在的效率优化问题,根据影响效率的不同因素,将联邦学习效率优化归纳为通信优化、训练优化以及从安全与隐私角度考虑的效率优化．再次, 列举并对比分析了目前的研究方案,揭示了现有方案存在的不足．联邦学习的研究还处于正在发展的阶段,现有技术还不够完善．最后,探讨了联邦学习面临的新挑战,本文以边缘计算作为扩展,提出了基于边缘学习的联邦学习方案,并在数据优化、自适应学习、激励机制和前沿技术等方面提出了创新性的理念与思想,为联邦学习未来的研究提供了新的解决思路．

１联邦学习背景概述

通过联邦学习在国内外的研究现状,可以看出其重要性与研究价值．联邦学习的提出和实现与边缘计算和深度学习息息相关．边缘计算为联邦学习的本地训练创造了条件,深度学习为联邦学习提供了理论依据和核心技术．本节首先介绍深度学习和边缘计算等背景知识,然后阐述传统数据隐私保护技术及其不足,从而引出联邦学习的概念、架构与分类,突出联邦学习的特点与优势,对比了联邦学习与传统分布式学习的区别,并总结了现有的联邦学习平台的特点．

基于数据拥有者对于隐私的高需求,在联邦学习中,服务器不需要用户共享个人的隐私数据,在本地设备上用个人数据训练共享模型即可．联邦学习的体系结构以及训练过程如图７所示．其中参与联邦学习的设备为数据拥有者,每个设备都持有私有数据集,每个设备利用这些数据训练本地模型．所有训练好的本地模型参数发送到服务器中聚合,并更新全局模型．然后服务器再把更新后的全局模型作为新一轮的共享模型发送到参与设备迭代训练,直到训练后的全局模型达到要求．

通常来说,联邦学习由多个参与者和一个服务器组成,参与者用来分布式地训练共享模型,服务器用来聚合这些本地模型并给参与者分发任务．联邦学习的训练过程分为３步: １) 任务初始化．在训练开始之前,服务器首先要确定训练的任务和目标,并选择参与联邦学习的设备,然后把共享模型发送给已选择的设备．２) 本地训练与共享．每个设备利用私有数据训练本地模型．训练的目标就是找到最佳的本地模型．设备训练完之后把模型参数上传到服务器,进行下一步操作．３) 全局聚合与更新．服务器收集到来自所有参与设备的本地模型后,进行模型参数聚合．典型的聚合操作是平均算法 FedAvg [３１],联邦学习服务器通过平均本地模型参数得到下一轮的共享全局模型, 目标是找到最佳的全局模型．这３个步骤将会依次迭代进行,当全局模型收敛或者达到一定的准确率时结束训练．

如果要对用户的数据建立学习模型,需要其数据的特征,也必须有标签数据,即期望得到的答案．比如,在图像识别领域,标签是被识别的用户的身份 (或实体的类别);在车联网领域,标签是与车辆用户相关的信息等．用户特征加标签构成了完整的训练数据．在联邦学习的应用场景中,各个数据集的用户不完全相同,或用户特征不完全相同．因此,根据数据的不同特点,将联邦学习分为３类:横向联邦学习、纵向联邦学习和联邦迁移学习[３２]．我们以２个数据集为例, 分别介绍３类联邦学习的区别．１) 横向联邦学习．如图８(a)所示,当２个数据集的用户重叠部分很少,但是用户特征重叠部分比较大时,把数据集横向切分,取出２个数据集中特征相同但来自不同用户的数据进行训练,这种场景下的联邦学习属于横向联邦学习．２) 纵向联邦学习．如图８(b)所示,当２个数据集的用户重叠部分很多,但用户特征重叠部分比较少时,通过用户的不同数据特征联合训练一个更综合的模型,这种场景下的联邦学习属于纵向联邦学习．３) 联邦迁移学习．如图８(c)所示,联邦迁移学习是纵向联邦学习的一种特例．当２个数据集的用户重叠部分少,用户特征重叠部分也较少,且有的数据还存在标签缺失时,此时利用迁移学习来解决数据规模小的问题,这种场景下的联邦学习就是联邦迁移学习．

这３种类型的联邦学习的共同点都在于保护用户数据的隐私性,区别主要在于用户和数据的重叠性．联邦学习的提出是基于不同用户、数据特征重叠性高的情况,并且目前大部分的研究都是基于横向联邦学习,纵向联邦学习和联邦迁移学习的研究工作暂时比较少．由于不同类型的联邦学习训练与优化机理都相互独立,而在移动边缘网络中部署实现联邦学习旨在利用更多不同的用户和设备来训练模型．因此, 本文主要关注的是横向联邦学习的效率优化,本文所提及的联邦学习均为横向联邦学习．

联邦学习平台随着国内外学者的研究,许多适用于联邦学习的开源平台或项目已经研发出来,表２总结了９种目前主流的平台．

１) TFF(TensorFlowfederated)．TFF [３４]是由谷歌开发的一个基于 TensorFlow 的框架,用于分布式机器学习和其他分布式计算．TFF为２层结构, 其中联邦学习层是一个高级接口,允许现有的 TensorFlow 模型支持并实现联邦学习,用户不必亲自设计联邦学习算法．另一层为联邦核心层,结合了 TensorFlow 和通信运营商,允许用户自己设计联邦学习算法．２) 工业级开源框架 FATE(federatedAItechＧ nologyenabler)．FATE [３５]是微众银行 AI团队推出的工业级别联邦学习框架,可以在保护数据安全和数据隐私的前提下进行人工智能协作．作为一个工业级的联邦学习框架,FATE 项目提供了许多现成的联邦学习算法以及多种加密机制,可以支持不同种类的安全计算．３) PySyft．PySyft [３６]是一个基于 PyTorch 的框架,可以在不可信的环境中执行加密、保护隐私的深度学习．为了模拟联邦学习,参与者被创建为虚拟工作者,将数据分割并分配给虚拟工作者,并指定数据所有者和存储位置,然后从虚拟工作者中获取模型后以进行全局聚合．４) PaddleFL．PaddleFL [３７]主要是面向深度学习进行设计的,提供了众多在计算机视觉、自然语言处理、推荐算法等领域的联邦学习策略及应用．同时 PaddleFL 还将提供横向与纵向传统机器学习方法的应用策略,利用开源的 FedAvg算法和基于差分隐私的随机梯度下降(stochasticgradientdescent, SGD)算法来实现保护隐私的分布式学习,以对分散式的数据集进行模型训练．结合本身在大规模分布式训练的弹性调度能力,PaddleFL在联邦学习领域有非常多的应用场景．５) OpenI纵横．OpenI纵横[３８]是由微众银行、鹏城实验室、香港人工智能与机器人协会以及星云 Clustar等共同开发并应用到 OpenI启智平台的孤岛数据联邦解决方案．该方案主要关注在满足用户数据安全、法律合规条件下的多方数据使用和联邦建模的问题．OpenI纵横提供了丰富的一站式联邦建模算法组件,可以执行大多数联邦建模任务．６) “蜂巢”联邦学习平台．该平台由平安科技自主研发,是一个完整的联邦学习智能系统,包括４个功能层级:“蜂巢”数据层、“蜂巢”联邦层、“蜂巢”算法层以及“蜂巢”优化层．依托平安集团在金融科技业务经验的优势,在金融领域做了大量的定向优化工作,例如风险控制和金融安全测试等．７) ClaraFL．ClaraFL [３９]是一款由英伟达公司开发的用于分布式协作联邦学习训练的应用程序, 主要应用于医疗领域,目的在于保护患者的隐私且实现联邦训练．该应用程序面向边缘服务器并部署这些分布式客户端系统,可以实现本地深度学习训练,并协同训练出更为实用的全局模型．８) FederatedＧaveragingＧtutorials [４０]．该项目是在 TensorFlow 框架上实现联邦平均算法的一组开源教程,主要的目标是把隐私保护相关技术应用在分布式机器学习算法上．FederatedＧaveragingＧtutorials 使用 Keras深度学习框架作为基础,并提供本地、分布式、联邦平均３种方法来训练 TensorFlow 模型．９) 华为联邦学习平台 NAIE(networkAIengine)． NAIE [４１]提供了一套自动化的联邦学习服务,实现了一键式从创建联邦实例到管理边缘节点的平台服务．用户只要下载一个客户端就可以轻松加入或退出联邦学习,且平台对联邦学习的整个过程实现了可视化的管理．华为 NAIE以横向联邦为基础,内置了众多联邦学习能力,包括联邦汇聚、梯度分叉、多方计算和压缩算法等能力．用户可以通过创建联邦实例来发起众筹式训练,并能够查看训练状态,享受共同训练的成果．华为 NAIE 联邦学习平台具有联邦实例管理能力、边缘节点管理能力和运行联邦实例能力,后续还将对纵向联邦学习提供支持．

２联邦学习优化问题

我们在调研中发现设备与服务器之间的通信问题是影响联邦学习效率的主要因素．移动边缘网络层与云服务器之间的距离较远,而联邦学习需要进行多轮训练,这带来了较多的通信时间与成本．此外,在联邦学习过程的３个步骤中,每个步骤都影响联邦学习的训练效率．例如在初始化中,服务器需要选择性能强大的移动设备参加训练,从而加快本地训练与上传的速度;在聚合步骤中,需要控制聚合的频率或内容来提高模型聚合的收敛效果．因此,本节将从通信、训练以及由安全与隐私引起的效率优化问题等方面展开描述联邦学习目前存在的优化问题．

2.1 通信传统联邦学习为２层结构,移动设备利用本地数据训练得到本地模型,通过广域网将模型传送到云端服务器．然而参与联邦学习的设备数量成千上万,甚至更多,设备与服务器之间的大量通信必然会占用过多的带宽．同时,设备的信号与能量状态也会影响与服务器的通信,导致网络延迟,消耗更高的通信成本．因此为了提高训练的实时性,联邦学习需要解决通信问题．

2.2 训练

联邦学习的本地训练与常规深度学习训练过程类似,而联邦学习中存在的异构计算资源、模型聚合以及数据质量是影响其训练效率的关键．

2.3 安全与隐私

与集中式学习相比,联邦学习的环境不可控,来自恶意设备的攻击成为主要的隐患．研究表明,恶意的攻击者仍可以根据其他参与者的共享模型来推断用户相关的隐私信息(例如生成式对抗网络攻击、模型反演攻击等),并且精度高达９０％ [５６Ｇ５７]．这种攻击也可以成功地从各种训练模型中提取模型信息[５８]．此外,联邦学习中也存在许多安全威胁,例如中毒攻击,这也会导致联邦学习的训练效率瓶颈．联邦学习中的中毒攻击可分为２类:

**１) 数据中毒．**在联邦学习中,设备使用本地数据进行模型训练,并将训练后的模型发送到服务器以进行进一步处理．在这种情况下,服务器难以确定每个设备的本地数据是否真实．因此,恶意参与者可以通过创建脏标签数据来训练模型,以产生错误的参数,降低全局模型的准确性．文献[５９]研究了联邦学习中的基于标签反转的数据中毒攻击,攻击者使用与其他参与者相同的损失函数和超参数训练的本地模型,利用标签反转污染数据集．实验表明攻击成功率、效率随中毒样本和攻击者数量呈线性增加．

**２) 模型参数中毒．**另一种比数据中毒更为有效的攻击是模型中毒攻击[６０]．对于模型中毒攻击,攻击者可以直接修改模型的参数,该模型直接发送到服务器以进行聚合．相比数据中毒,即使只有一个模型中毒攻击者,也能迅速降低全局模型的精度．安全与隐私问题除了破坏模型的训练精度,更严重的是导致用户不再信任联邦学习服务器,用户将不愿意参与共同训练,而过低的设备参与率导致全局模型的性能低下,甚至造成模型收敛的瓶颈．为了提高模型训练的效率与精度,需要结合相关隐私与安全机制,解决针对联邦学习环境的安全与隐私问题,提高模型的稳定性与用户的参与度,为高效的联邦学习提供可靠环境。

３现有优化研究方案

现有优化研究方案第２节讨论了当前联邦学习存在的优化问题, 本节将详细介绍与分析目前针对联邦学习效率优化的相关研究与技术方案．通信效率的研究主要为解决在基于云或基于边缘的环境中实现联邦学习带来的通信时间与负载的问题．而训练优化是对联邦学习训练的每个步骤进行优化,包括参与设备选择与协调、模型聚合控制．此外,还针对数据质量问题,总结了联邦学习收敛优化等相关的研究方案．最后列举了通过保护联邦学习安全与隐私从而提高模型性能的方案．

４挑战及未来研究方向

联邦学习由于其分布式的特性,以及移动边缘网络环境的复杂性,使联邦学习系统的稳定性不如传统分布式学习．用户的不可控性造成许多未知因素,这给联邦学习的效率优化带来了极大的挑战．目前,联邦学习的研究仍处于初期,没有一套完善的方案解决稳定性、效率优化问题,训练过程容易受到影响．通过对移动边缘网络中联邦学习效率优化研究现状的深入分析,我们认为未来联邦学习的优化研究可以重点从７个方面展开: 基于更多边缘计算的联邦学习；针对联邦学习的数据清洗；自适应联邦学习；激励机制与服务定价；资源友好的安全与隐私保护；联邦学习与前沿技术结合；联邦学习与智能场景结合

成为VIP会员查看完整内容

相关内容

联邦学习

关注 200

联邦学习（Federated Learning）是一种新兴的人工智能基础技术，在 2016 年由谷歌最先提出，原本用于解决安卓手机终端用户在本地更新模型的问题，其设计目标是在保障大数据交换时的信息安全、保护终端数据和个人数据隐私、保证合法合规的前提下，在多参与方或多计算结点之间开展高效率的机器学习。其中，联邦学习可使用的机器学习算法不局限于神经网络，还包括随机森林等重要算法。联邦学习有望成为下一代人工智能协同算法和协作网络的基础。

联邦学习攻防研究综述

专知会员服务

38+阅读 · 2022年7月22日

「基于联邦学习的推荐系统」最新2022研究综述

专知会员服务

75+阅读 · 2022年5月21日

「联邦学习隐私保护」最新2022研究综述

专知会员服务

117+阅读 · 2022年4月1日

联邦学习研究综述

专知会员服务

151+阅读 · 2021年12月25日