随着物联网(IoT, Internet of Things)与人工智能(AI, Artificial Intelligence)的不断融合,众多产业正迎来前所未有的创新机遇。然而,日益凸显的隐私担忧与数据孤岛问题却在阻碍这一有前景的发展。不幸的是,传统的集中式机器学习(ML)方法在应对这些挑战方面暴露出了固有的局限性。 为顺应这一快速演进的技术格局,联邦学习(Federated Learning, FL)作为一种前沿的机器学习范式应运而生,使得去中心化设备之间能够开展协作式训练。FL 允许用户在无需共享本地原始数据的前提下共同构建 AI 模型,从而确保数据隐私、网络可扩展性以及最小化数据传输开销。 FL 的一个核心问题在于:如何在高度异构的环境下实现高效的知识聚合(knowledge aggregation)。然而,FL 的固有特性使其实际落地比集中式 ML 更具挑战性。本综述围绕 FL 研究中的三个主要方向展开:个性化(personalization)、优化(optimization)和鲁棒性(robustness)。我们的目标是通过独特的相关工作筛选方法,构建一个结构清晰、粒度精细的分类体系。 与其他综述文章不同,我们采用了一种结合**文献计量分析(bibliometric analysis)与系统化审查(systematic scrutinizing)**的混合方法,以识别文献中最具影响力的研究工作。因此,本文系统探讨了与异构性、效率、安全性与隐私相关的挑战及当代技术进展。 本研究的另一项重要贡献是对 FL 聚合策略的全面覆盖,包括体系结构特征、同步方式以及多样化的联邦动机。为进一步深化分析,我们提供了评估新型 FL 方法的实用性洞察,并在 IID 与 non-IID 数据分布下开展实验,对多种聚合技术进行评估与比较。 最后,我们提出了一系列具有吸引力的未来研究方向,亟需深入探索,以推动该领域取得更多突破性进展。
在当今的数据中心化世界中,物联网(IoT)设备的广泛普及带来了海量数据,进而支撑着智能化与高质量服务的实现。这些数据财富推动了人工智能(AI)在无数应用领域的空前扩张。尤其是,为了获得卓越的准确性,深度学习(DL)模型通常需要大量数据作为输入,从而为高级服务的发展铺平道路 [1]。历史上,如此庞大的数据通常依托云端进行存储与分析,因为云具备巨大的资源与处理能力。然而,以云为中心的集中式机器学习技术在应对愈发复杂的人类需求时逐渐暴露出显著不足。 其首要局限源于:将庞大的 IoT 数据卸载到远端服务器所带来的不 desirable 的处理延时,因为数据中心通常远离数据拥有者。因此,这种长距离通信架构不仅带来显著的通信与处理开销,也导致较高的整体计算成本 [2]。第二个问题源自用户必须牺牲数据隐私以换取更优 AI 服务 [3]。随着数据持有者日益警惕是否应将数据共享给第三方(不论其信誉如何),各组织与政府也逐渐制定严格隐私法规,以保障数据所有权与使用控制权。 例如,欧洲委员会的 一般数据保护条例(GDPR) 在第 5 和第 6 条中提出两个伦理概念:数据最小化(data minimization)与目的限制(purpose limitation)。数据最小化强调只收集研究所需的相关与必要数据,而目的限制则强调不得将收集的数据用于与初始目的不符的未来研究。为遵守这些法律规定,研究者通常采用假名化(pseudonymization)或去标识化技术,通过移除如姓名、地址、社保号等可识别信息并以伪标识替换 [4]。然而,这些技术并不能提供绝对隐私保护,在某些情境下,重识别机制可能依然将伪标识与其对应实体关联,从而泄露个人隐私 [5,6]。 在此背景下,联邦学习(FL) 作为一种创新解决方案脱颖而出,它将机器学习模型的训练计算负载分散到多节点,同时确保每个站点本地数据的隐私保护 [7]。换言之,联邦学习允许参与节点基于其本地数据贡献知识,而无需将原始数据上传到云端,即可共同训练出一个强大的 AI 模型。在典型的 FL 设置中,一个中央服务器接收来自各参与客户端的模型权重更新并将其聚合为全局模型,以增强整体性能。 为了充分发挥 FL 在各类应用中的优势,需要满足若干关键条件,使数据持有者愿意加入这一协作范式:
数据是机器学习的生命线。尽管每个参与实体可根据其环境与偏好,自主决定如何采集、提取与组织数据,但确保高质量并合理预处理的数据是 FL 成功训练的前提。
仅有数据并不足以驱动 FL;数据背后必须有算力支撑。无论客户端是移动设备还是企业节点,为实现理想性能,它们均需参与多轮通信训练,因此必须具备持续参与的计算能力。
FL 成功的关键还在于高可靠通信链路,确保本地模型更新与全局模型权重能以安全与高效方式交换。若通信不可靠,恶意实体可能篡改模型或窃取敏感信息。
每一轮通信中如何汇集来自不同客户端的知识,是推动全球采用 FL 的核心。聚合算法必须公平、可靠且具备鲁棒性,能够在客户端差异巨大时依然实现稳健融合。
随着 FL 领域的快速发展,研究者积极探索满足现代系统需求的更加高效的方法。他们通过评估多种指标以验证方法的正确性与创新性,但新方案往往提升某些指标,却可能在其他方面带来权衡。本研究旨在帮助研究者明确 FL 热点话题,并掌握最新进展。因此,我们提出如图 1 所示的高层分类,将评估指标归入三大研究主题:优化(optimization)、个性化(personalization)和鲁棒性(robustness)。本综述主要聚焦于基于聚合的解决方案(详见第 4 节),并探讨可辅助聚合改进的相关技术。尽管聚合作为 FL 挑战的关键切入口已得到广泛认可,但现有综述对聚合问题本身的关注仍非常有限。
该方向关注 FL 模型适应不同客户端的个性化需求与属性的能力,而不受其异构性影响。FL 中的异构主要分为两类: 1. 统计异构:如数据分布、质量与数量不同; 1. 系统异构:如硬件能力、操作系统、资源可用性不同。
此外,FL 还必须确保聚合公平,不因用户位置、性别等因素产生偏差。目标是在个性化、偏差消除与隐私保护之间取得平衡。开发个性化 FL 方法往往十分困难,研究者需准确评估异构性来源,并设计算法在不损害隐私的同时处理这些差异。异构性来源见第 3.1 节,相应解决方案在第 4.1 节中系统分类。
该方向旨在构建能够快速收敛的 FL 模型。研究者需要在客户端选择、通信效率与资源分配上进行优化。然而,FL 系统中存在诸多限制因素,例如网络延迟、噪声通信链路、客户端移动性以及各类异构性。为提升收敛速度,研究者必须确保 FL 模型在真实应用环境下也保持高效、有效且具有成本效益。第 3.2 节将详细讨论通信与客户端选择的约束,相关解决方案在第 4.2 节讨论。
作为以隐私与安全为首要目标的 ML 范式,FL 的安全性与隐私威胁不可忽视。威胁可能来自传统 ML 的固有脆弱性,也可能源于 FL 的分布式特性。该类别的研究聚焦于对抗攻击、隐私泄露与系统故障,尤其在处理敏感数据(如医疗、保险)领域备受关注。第 3.3 节系统分析威胁,第 4.3 节则总结相关防御策略。
尽管现有 FL 研究繁多,但文献中仍缺乏能同时涵盖多个关键视角的综述。我们在调研中形成以下观察:
尽管统计异构、安全攻击、能量效率等议题受到大量关注,但诸如客户端选择、模型架构、知识蒸馏、偏差缓解与公平性等更细致的 FL 主题仍缺乏系统化综述。
现有分类常仅围绕挑战、架构或规模展开,但缺乏明确分类依据,导致内容结构模糊,不利于研究者快速定位与理解相关工作。
尽管聚合策略直接影响 FL 系统性能,尤其在中心化 FL 中至关重要,但迄今尚无综述系统讨论 FL 聚合体系。
研究者往往需要花费大量时间自行确定实验参数,而缺乏参考指南来设计 FL 评估 testbed,例如: — 数据集选择、 — 不同层级的异构数据划分、 — 性能指标、 — 模型架构与超参数、 — 客户端数量等。