绿色联邦学习：绿色意识AI的新时代

人工智能应用的发展，特别是在大规模无线网络中的应用，正呈指数级增长，伴随着所使用架构的规模和复杂性的不断提升。尤其是，机器学习被公认为当今最耗能的计算应用之一，这对下一代智能系统的环境可持续性构成了重大挑战。实现环境可持续性意味着每个AI算法在设计时都要将可持续性纳入考量，从架构阶段开始就融入绿色意识。最近，联邦学习（FL）由于其分布式特性，展现出解决这一需求的新机遇。因此，阐明近期联邦学习进展带来的潜力和挑战及其对可持续性的影响尤为重要。此外，向研究人员、利益相关者及相关方提供一条清晰的路线图，以帮助他们了解绿色意识AI算法中现有的努力和差距也至关重要。本综述主要旨在通过识别并分析超过一百项联邦学习的研究工作，评估它们为可持续环境中的绿色人工智能所做的贡献，特别是聚焦于物联网（IoT）领域的研究。本文深入探讨了绿色联邦学习在提高能效方面的当前问题，讨论了绿色物联网应用研究中可能面临的挑战与未来前景。自2012年以来，人工智能（AI）学科在语音识别、目标识别、机器翻译和游戏等多个领域取得了显著进展。不断扩大的机器学习模型规模和计算强度对这一进展做出了重要贡献。最初，人工智能研究专注于通过使用大量计算能量来提高模型的准确性，导致了所谓的“红色AI” [101]。因此，计算成本非常高，而且由于巨大的能耗，红色AI对环境不友好，从而引发了“绿色AI”的概念——更加包容且对环境友好的AI研究。“绿色AI”指的是在计算成本的基础上产生新见解的AI研究，旨在减少资源的使用。与红色AI相反，绿色AI提倡在性能和效率之间取得有利的平衡，这导致了快速增长的计算成本（及其产生的碳足迹）。如果效率测量被广泛认可为研究中与准确性同等重要的评估指标，研究人员将有机会专注于其模型的效率，并对包容性和环境产生积极影响。传统的机器学习方法不适合绿色AI，因为传统的机器学习算法需要集中数据收集和集中服务器的处理，随着隐私问题的日益严重，这已经成为大规模应用中的瓶颈。

“联邦学习”（Federated Learning, FL）是一种新的分布式学习范式，其中一个中央服务器协调多个客户端合作训练全球模型。联邦学习保持训练数据本地化，同时允许资源受限的边缘计算设备，如物联网设备和智能手机，创建一个通用的预测模型。客户端必须在使用其私有本地数据训练模型后，将更新后的模型（如梯度或参数）提交给服务器。联邦学习可以分为两类：跨设备FL和跨机构FL，区别在于参与者和训练规模。跨设备FL中的客户端是小型分散的实体（如智能手机、可穿戴设备和边缘设备），每个客户端的本地数据量可能都很少。因此，要使跨设备FL成功，需要大量边缘设备——多达数百万个——参与训练过程。而在跨机构FL中，客户端通常是企业或机构（如银行、医院等）。参与者很少——可能在两个到一百个之间——并且每个客户端都需要在整个训练会话期间保持在线状态 [39]。

联邦学习（FL）可能也会消耗大量资源，尤其是在大规模应用时。智能环境中，数十亿台包括智能手机、笔记本电脑、可穿戴技术和汽车等设备通过物联网（IoT）网络相连[3]。为了提高系统可靠性并推进绿色物联网，边缘FL应集中于减少延迟和资源能耗，而不影响全球模型的收敛速度。在能效FL方面，降低边缘设备的能耗对保持FL框架的长期可持续性至关重要，因为移动设备依赖电池运行。降低通信和计算能耗应成为绿色FL或能效系统的重要考量因素。为了减少能耗并在性能和效率之间实现优化，研究界提出了绿色联邦学习（Green Federated Learning），从而推动了可持续AI的发展。绿色联邦学习解决了两个重要问题：(i) 隐私问题：中央服务器和本地终端设备通过交换模型更新而不是原始数据来维护相同的模型，从而不直接泄露存储在终端设备上的数据隐私；(ii) 巨大的能耗问题：绿色FL通过选择设计元素和FL参数来减少能耗，同时保持竞争性的性能和训练时间。

1.2 动机

表1总结了相关的调研，展示了我们的动机。尽管已经有许多关于联邦学习的调研，涵盖了一般或特定的方面，但仍有必要为能效（绿色）联邦学习研究的现状提供一个合理且全面的分类，这是绿色意识AI的一个重要且不断发展的研究领域。因此，我们在表1中突出了我们的工作与其他研究的独特贡献，并评估了先前相关研究的重要贡献和局限性。Li等人[62]从四个角度审视了联邦学习面临的挑战：统计异质性、系统异质性、通信效率和隐私问题。他们还简要概述了未来研究的几个潜在领域。Lim等人[64]在移动边缘网络中的联邦学习研究中，将现有的方法分为两类：那些解决联邦学习核心问题的方法和那些利用联邦学习来解决边缘计算问题的方法。Kairouz等人[48]在讨论联邦学习的最新进展时，概述了尚未解决的问题和关切，例如有效的通信、隐私保护、攻击防御和联邦公平性。Wahab等人[115]提出了一个详细的分类系统，讨论了当前的问题和解决方案，主要考虑了客户端选择和通信效率的方法。Rahaman等人[91]将调研的类别划分为数据分区、FL架构、算法/聚合技术、个性化技术、FL应用于不同行业和领域的实施细节，以及通信成本、统计异质性、系统异质性和隐私/安全问题。在[12]中，作者包括了有关联邦环境特征的信息、去中心化学习方法的独特分类以及对被调查解决方案在应对非IID性、隐私、设备异质性和防御攻击等方面的最相关的系统级贡献的详尽解释。Gao等人[20]涵盖了FL中的数据、统计、系统和模型异质性，提出了分类法并概述了与每个异质性挑战相关的场景、目标和技术。作者还提出了一个新的分类系统，将现有的异质性联邦学习方法分为三个级别：数据级、模型级和服务器级[132]。Gecer等人[21]对FL进行了效率、效能、隐私、鲁棒性和公平性方面的调研。为了比较和表征联邦学习解决方案，作者确定了三种抽象角色：聚合器、学习者和数据创建者。部分先前的调研工作[72, 85, 87]涉及特定问题，例如非IID数据、异质性、模型聚合等。如表1所示，没有任何关于绿色FL的最新调研能同时处理能效问题，同时保持通信轮次、收敛性和准确性之间的平衡。无论物联网应用中的FL架构或模型类型如何，都有必要分析能效和碳足迹对可持续环境和绿色意识AI的影响。此外，这一系统性调研回答了以下研究问题：

RQ1: 联邦学习如何变得绿色意识？
RQ2: 物联网应用中最先进的绿色FL方法是什么？
RQ3: 影响物联网应用中绿色FL的挑战是什么？
RQ4: 与物联网应用相关的绿色FL的研究空白和未来研究方向是什么？

第一个研究问题（RQ1）关注流行的FL变体以及绿色FL的路线图，章节3和5回答了该问题。第二个研究问题（RQ2）旨在提供有关绿色FL的所有文献的全面且有条理的总结，并展示FL对物联网应用的潜在优势。第三个研究问题（RQ3）则着眼于绿色FL物联网环境中的能效和优化问题。章节6回答了RQ2和RQ3。第四个研究问题（RQ4）提供了对绿色FL领域研究人员的最终建议，主要集中在物联网应用的挑战上。章节7和8回答了RQ4。在本次调研工作中，我们探讨了FL方法以及能效优化的分布式模型的问题，并分析了物联网应用中的挑战与机遇。需要指出的是，由于关于安全性和隐私保护挑战和解决方案的丰富证据，本次调研未考虑安全性和隐私保护问题。

1.3 主要贡献

本次调研的主要贡献如下：

我们详细讨论了联邦学习面临的挑战及其针对绿色FL的解决方案。
我们阐明了联邦学习系统中采用的能效算法和方法，以减少碳足迹。
我们探讨了FL优化技术对资源分配的影响，如何在分布式设备上的模型训练中最小化能耗。
最后，我们通过实际FL系统中的性能、能效和训练时间的权衡，概述了我们学到的困难、建议和见解。

我们坚信，本文的研究成果将为可持续性和联邦学习的交叉领域提供宝贵见解，为AI中的环保创新铺平道路，并对推动可持续AI技术的发展做出重大贡献。图1展示了本次调研的结构。

成为VIP会员查看完整内容

相关内容

联邦学习

关注 200

联邦学习（Federated Learning）是一种新兴的人工智能基础技术，在 2016 年由谷歌最先提出，原本用于解决安卓手机终端用户在本地更新模型的问题，其设计目标是在保障大数据交换时的信息安全、保护终端数据和个人数据隐私、保证合法合规的前提下，在多参与方或多计算结点之间开展高效率的机器学习。其中，联邦学习可使用的机器学习算法不局限于神经网络，还包括随机森林等重要算法。联邦学习有望成为下一代人工智能协同算法和协作网络的基础。

【ICML2024】悲观遇上风险：风险敏感的离线强化学习

专知会员服务

24+阅读 · 2024年7月11日

MIT韩松等最新《微型机器学习TinyML: 进展与未来》综述

专知会员服务

42+阅读 · 2024年3月29日

开放环境目标检测：挑战、解决方案与展望

专知会员服务

44+阅读 · 2024年3月28日

《图持续学习》综述

专知会员服务

44+阅读 · 2024年2月13日