一文综述「联邦图机器学习」，概念、技术、应用全都有

2022 年 8 月 11 日 机器之心

机器之心报道

机器之心编辑部

一文总结联邦图机器学习。

近年来，图已被广泛应用于表示和处理很多领域的复杂数据，如医疗、交通运输、生物信息学和推荐系统等。图机器学习技术是获取隐匿在复杂数据中丰富信息的有力工具，并且在像节点分类和链接预测等任务中，展现出很强的性能。

尽管图机器学习技术取得了重大进展，但大多数都需要把图数据集中存储在单机上。然而，随着对数据安全和用户隐私的重视，集中存储数据变的不安全和不可行。图数据通常分布在多个数据源（数据孤岛），由于隐私和安全的原因，从不同的地方收集所需的图数据变的不可行。

例如一家第三方公司想为一些金融机构训练图机器学习模型，以帮助他们检测潜在的金融犯罪和欺诈客户。每个金融机构都拥有私有客户数据，如人口统计数据以及交易记录等。每个金融机构的客户形成一个客户图，其中边代表交易记录。由于严格的隐私政策和商业竞争，各个机构的私有客户数据无法直接与第三方公司或其它他机构共享。同时，机构之间也可能有关联，这可以看作是机构之间的结构信息。因此面临的主要挑战是：在不直接访问每个机构的私有客户数据的情况下，基于私有客户图和机构间结构信息，来训练用于金融犯罪检测的图机器学习模型。

联邦学习（FL）是一种分布式机器学习方案，通过协作训练解决数据孤岛问题。它使参与者（即客户）能够在不共享其私有数据的情况下联合训练机器学习模型。因此，将 FL 与图机器学习相结合成为解决上述问题的有希望的解决方案。

本文中，来自弗吉尼亚大学的研究者提出联邦图机器学习（FGML，Federated Graph Machine Learning）。一般来说，FGML 可以根据结构信息的级别分为两种设置：

第一种是具有结构化数据的 FL，在具有结构化数据的 FL 中，客户基于其图数据协作训练图机器学习模型，同时将图数据保留在本地。

第二种是结构化 FL，在结构化 FL 中，客户端之间存在结构信息，形成客户端图。可以利用客户端图设计更有效的联合优化方法。

论文地址：https://arxiv.org/pdf/2207.11812.pdf

虽然 FGML 提供了一个有前景的蓝图，但仍存在一些挑战：

1、跨客户端的信息缺失。在具有结构化数据的 FL 中，常见的场景是每个客户端机器都拥有全局图的子图，并且一些节点可能具有属于其他客户端的近邻。出于隐私考虑，节点只能在客户端内聚合其近邻的特征，但无法访问位于其它客户端上的特征，这导致节点表示不足。

2、图结构的隐私泄漏。在传统 FL 中，不允许客户端公开其数据样本的特征和标签。在具有结构化数据的 FL 中，还应考虑结构信息的隐私。结构信息可以通过共享邻接矩阵直接公开，也可以通过传输节点嵌入间接公开。

3、跨客户端的数据异构性。与传统 FL 中数据异构性来自 non-IID 数据样本不同，FGML 中的图数据包含丰富的结构信息。同时，不同客户的图结构也会影响图机器学习模型的性能。

4、参数使用的策略。在结构化 FL 中，客户端图使客户端能够从其相邻客户端获取信息。在结构化 FL 中，需要设计有效的策略，以充分利用由中心服务器协调或完全分散的近邻信息。

为了应对上述挑战，研究人员开发了大量算法。目前各种算法主要关注标准 FL 中的挑战和方法，只有少数人尝试解决 FGML 中的具体问题和技术。有人发表对 FGML 进行分类的综述性论文，但没有总结 FGML 中的主要技术。而有的综述文章仅涵盖了 FL 中数量有限的相关论文，并非常简要地介绍了目前现有的技术。

而在今天介绍的这篇论文中，作者首先介绍 FGML 中两种问题设计的概念。然后，回顾了每种 shezhi 下的最新的技术进展，还介绍了 FGML 的实际应用。并对可用于 FGML 应用的可访问图数据集和平台进行总结。最后，作者给出了几个有前途的研究方向。文章的主要贡献包括：

FGML 技术分类：文章给出了基于不同问题的 FGML 分类法，并总结了每个设置中的关键挑战。

全面的技术回顾：文章全面概述了 FGML 中的现有技术。与现有其它综述性论文相比，作者不仅研究了更广泛的相关工作，而且提供了更详细的技术分析，而不是简单地列出每种方法的步骤。

实际应用：文章首次总结 FGML 的实际应用。作者根据应用领域对其进行分类，并介绍每个领域中的相关工作。

数据集和平台：文章介绍了 FGML 中现有的数据集和平台，对于想在 FGML 中开发算法和部署应用程序的工程师和研究人员非常有帮助。

未来方向：文章不仅指出了现有方法的局限性，而且给出了 FGML 未来的发展方向。

FGML 技术综述

这里对文章的主要结构做下简介。第 2 节简要介绍了图机器学习中的定义以及 FGML 中两种设置的概念和挑战。第 3 节和第 4 节回顾了这两种设置中的主流技术。第 5 节进一步探讨了 FGML 在现实世界中的应用。第 6 节介绍了相关 FGML 论文中使用的开放图数据集和 FGML 的两个平台。在第 7 节中提供了未来可能的发展方向。最后第 8 节对全文进行了总结。

更多详细信息请参考原论文。