什么是联邦图机器学习？弗吉尼亚大学最新《联邦图机器学习：概念、技术和应用》综述

2022 年 7 月 26 日 专知

【导读】弗吉尼亚大学最新《联邦图机器学习：概念、技术和应用》综述

近年来，图机器学习在学术界和产业界引起了极大的关注。大多数图机器学习模型，如图神经网络(GNNs)，都是在大量的图数据上训练的。然而，在许多现实场景中，例如医疗系统中的住院预测，图数据通常存储在多个数据所有者中，由于隐私问题和监管限制，其他任何方无法直接访问。联邦图机器学习(FGML)是一种很有前途的解决方案，通过以联邦的方式训练图机器学习模型来解决这一挑战。在这项综述中，我们对有关FGML的文献进行了全面的回顾。具体来说，我们首先提供了一个新的分类方法，将FGML中存在的问题分为两种情况，即具有结构化数据的FL和结构化FL。然后，我们回顾了每种情况下的主流技术，并详细阐述了它们如何应对FGML下的挑战。此外，我们总结了FGML在不同领域的实际应用，并介绍了FGML所采用的开放图数据集和平台。最后，我们提出了现有研究的局限性，并展望了该领域的研究方向。

近年来，图被广泛用于表示现实世界中各种领域的复杂数据，例如医疗健康[112;84)、运输(56;136年,生物信息学(72;137]和推荐系统[13;29)。大量的图机器学习技术为理解隐藏在图中的丰富信息提供了深刻的见解，并在不同的任务中表现出表现力，例如节点分类[139;38]和链接预测[6;21)。

虽然这些图机器学习技术已经取得了显著的进步，但它们大多数都需要将大量的图数据集中存储在一台机器上。然而，随着对数据安全和用户隐私的重视[107]，这一要求在现实世界中往往是不可行的。相反，图数据通常分布在多个数据所有者中(即数据隔离)，出于隐私的考虑，我们无法收集不同地方的图数据。例如，一家第三方公司旨在为一群金融机构训练一个图机器学习模型，以帮助他们发现潜在的金融犯罪和欺诈客户。每个金融机构都拥有自己的本地客户数据集，比如他们的人口统计数据，以及他们之间的交易记录。每个金融机构的客户组成一个客户图，其中边代表交易记录。由于严格的隐私政策和商业竞争，每个机构的本地客户数据不能直接共享给公司或其他机构。同时，一些机构可能与其他机构存在联系，这可以看作是机构之间的结构性信息。一般来说，公司面临的主要挑战在于，如何在不直接访问每个机构的本地客户数据的情况下，基于机构之间的本地客户图和结构信息，训练一个用于金融犯罪检测的图机器学习模型。联邦学习(federation Learning, FL)[76]是一种通过协同训练解决数据隔离问题的分布式学习方案。它使参与者(即客户)能够在不共享私人数据的情况下共同训练机器学习模型。因此，将FL与图机器学习相结合成为解决上述问题的一个很有前途的方法。在本文中，我们称之为联邦图机器学习(FGML)。一般来说，FGML可分为两种结构信息水平的设置。第一个设置是具有结构化数据的FL。在具有结构化数据的FL中，客户端基于自己的图数据协同训练一个图机器学习模型，同时保持本地的图数据。第二种设置是结构化FL，在结构化FL中，客户端之间存在结构信息，构成客户端级图。可以利用客户端图设计更有效的联邦优化方法。

虽然FGML提供了一个有希望的范式，但以下挑战出现了，需要解决。

1. Cross-client丢失的信息。FL中结构化数据的一个常见场景是，每个客户端拥有全局图的一个子图，一些节点可能有属于其他客户端的邻居。由于隐私问题，一个节点只能在客户端内聚合其邻居的特征，而不能访问位于其他客户端的特征，这导致节点表示不足[135;88;129;11)。

2. 图结构的隐私泄露。在传统的FL中，客户端不允许公开其数据样本的特征和标签。在具有结构化数据的Fl中，还需要考虑结构信息的私密性。结构信息既可以通过共享邻接矩阵直接暴露，也可以通过传输节点嵌入间接暴露[134;66;114;92]。

3.跨客户端的数据异构性。不像传统的FL，数据异质性来自于非iid数据样本[97;46]， FGML中的图数据包含丰富的结构信息[138;50;65;51]。同时，跨客户端发散的图结构也会影响图机器学习模型的性能。

4. 参数利用策略。在结构化FL中，客户端图使客户端能够从相邻的客户端获取信息。在结构化FL中，应该设计出充分利用由中央服务器协调或完全分散的邻居信息的有效策略[55;40;78]。

为了应对上述挑战，近年来提出了大量的算法。然而，据我们所知，现有的综述主要集中在标准FL中的挑战和方法[58;53个;123;143;然而，对于FGML的具体问题和技术的研究却很少[133;63]。[133]对FGML进行了分类，但没有总结研究FGML的主要技术。另一篇综述论文[63]只涉及本主题的相关论文数量有限，并且非常简单地介绍了现有的技术。在本综述中，我们介绍了FGML中两种问题设置的概念。然后，我们回顾了每种情况下的当前技术，并介绍了在FGML中的实际应用。我们还总结了可用于FGML应用的可访问图数据集和平台。最后，展望了未来的发展方向。我们在本文中的贡献可以概括如下：

FGML的技术分类。我们提出了一个基于不同问题设置的FGML分类，并总结了每个设置中的关键挑战。

全面的技术调研。我们提供了一个全面的FGML现有技术的概述。与现有的综述相比，我们不仅调研了更广泛的相关工作，而且提供了更详细的技术分析，而不是简单地列出每个方法的步骤。

现实世界的应用。我们首先总结了FGML在现实世界中的应用。我们将应用程序按其领域进行分类，并介绍每个领域的相关工作。

数据集和平台。我们介绍了FGML中现有的数据集和平台，这有助于工程师和研究人员在FGML中开发算法和部署应用。

有前途的未来的发展方向。我们指出了现有方法的局限性，并提供了有前景的研究方向。

本文的其余部分组织如下。第2节简要介绍了图机器学习中的定义以及FGML中两种设置的概念和挑战。我们将在第3节和第4节中分别回顾这两种情况下的主流技术。第5节进一步探讨了FGML在现实世界中的应用。第6节介绍了在相关FGML论文中使用的开放图表数据集和两个FGML平台。我们还在第7节中提供了可能的未来方向。最后，第8部分对本文进行总结。