联邦图机器学习最新综述

2022 年 8 月 30 日 机器学习与推荐算法
嘿,记得给“机器学习与推荐算法”添加星标

转自:机器之心 

近年来,图已被广泛应用于表示和处理很多领域的复杂数据,如医疗、交通运输、生物信息学和推荐系统等。图机器学习技术是获取隐匿在复杂数据中丰富信息的有力工具,并且在像节点分类和链接预测等任务中,展现出很强的性能。

尽管图机器学习技术取得了重大进展,但大多数都需要把图数据集中存储在单机上。然而,随着对数据安全和用户隐私的重视,集中存储数据变的不安全和不可行。图数据通常分布在多个数据源(数据孤岛),由于隐私和安全的原因,从不同的地方收集所需的图数据变的不可行。

例如一家第三方公司想为一些金融机构训练图机器学习模型,以帮助他们检测潜在的金融犯罪和欺诈客户。每个金融机构都拥有私有客户数据,如人口统计数据以及交易记录等。每个金融机构的客户形成一个客户图,其中边代表交易记录。由于严格的隐私政策和商业竞争,各个机构的私有客户数据无法直接与第三方公司或其它他机构共享。同时,机构之间也可能有关联,这可以看作是机构之间的结构信息。因此面临的主要挑战是:在不直接访问每个机构的私有客户数据的情况下,基于私有客户图和机构间结构信息,来训练用于金融犯罪检测的图机器学习模型。

联邦学习(FL)是一种分布式机器学习方案,通过协作训练解决数据孤岛问题。它使参与者(即客户)能够在不共享其私有数据的情况下联合训练机器学习模型。因此,将 FL 与图机器学习相结合成为解决上述问题的有希望的解决方案。

本文中,来自弗吉尼亚大学的研究者提出联邦图机器学习(FGML,Federated Graph Machine Learning)。一般来说,FGML 可以根据结构信息的级别分为两种设置:

第一种是具有结构化数据的 FL,在具有结构化数据的 FL 中,客户基于其图数据协作训练图机器学习模型,同时将图数据保留在本地。

第二种是结构化 FL,在结构化 FL 中,客户端之间存在结构信息,形成客户端图。可以利用客户端图设计更有效的联合优化方法。


论文地址:https://arxiv.org/pdf/2207.11812.pdf

虽然 FGML 提供了一个有前景的蓝图,但仍存在一些挑战:

1、跨客户端的信息缺失。在具有结构化数据的 FL 中,常见的场景是每个客户端机器都拥有全局图的子图,并且一些节点可能具有属于其他客户端的近邻。出于隐私考虑,节点只能在客户端内聚合其近邻的特征,但无法访问位于其它客户端上的特征,这导致节点表示不足。

2、图结构的隐私泄漏。在传统 FL 中,不允许客户端公开其数据样本的特征和标签。在具有结构化数据的 FL 中,还应考虑结构信息的隐私。结构信息可以通过共享邻接矩阵直接公开,也可以通过传输节点嵌入间接公开。

3、跨客户端的数据异构性。与传统 FL 中数据异构性来自 non-IID 数据样本不同,FGML 中的图数据包含丰富的结构信息。同时,不同客户的图结构也会影响图机器学习模型的性能。
 
4、参数使用的策略。在结构化 FL 中,客户端图使客户端能够从其相邻客户端获取信息。在结构化 FL 中,需要设计有效的策略,以充分利用由中心服务器协调或完全分散的近邻信息。

为了应对上述挑战,研究人员开发了大量算法。目前各种算法主要关注标准 FL 中的挑战和方法,只有少数人尝试解决 FGML 中的具体问题和技术。有人发表对 FGML 进行分类的综述性论文,但没有总结 FGML 中的主要技术。而有的综述文章仅涵盖了 FL 中数量有限的相关论文,并非常简要地介绍了目前现有的技术。


而在今天介绍的这篇论文中,作者首先介绍 FGML 中两种问题设计的概念。然后,回顾了每种 shezhi 下的最新的技术进展,还介绍了 FGML 的实际应用。并对可用于 FGML 应用的可访问图数据集和平台进行总结。最后,作者给出了几个有前途的研究方向。文章的主要贡献包括:

FGML 技术分类:文章给出了基于不同问题的 FGML 分类法,并总结了每个设置中的关键挑战。

全面的技术回顾:文章全面概述了 FGML 中的现有技术。与现有其它综述性论文相比,作者不仅研究了更广泛的相关工作,而且提供了更详细的技术分析,而不是简单地列出每种方法的步骤。

实际应用:文章首次总结 FGML 的实际应用。作者根据应用领域对其进行分类,并介绍每个领域中的相关工作。

数据集和平台:文章介绍了 FGML 中现有的数据集和平台,对于想在 FGML 中开发算法和部署应用程序的工程师和研究人员非常有帮助。

未来方向:文章不仅指出了现有方法的局限性,而且给出了 FGML 未来的发展方向。

FGML 技术综述
 
这里对文章的主要结构做下简介。第 2 节简要介绍了图机器学习中的定义以及 FGML 中两种设置的概念和挑战。第 3 节和第 4 节回顾了这两种设置中的主流技术。第 5 节进一步探讨了 FGML 在现实世界中的应用。第 6 节介绍了相关 FGML 论文中使用的开放图数据集和 FGML 的两个平台。在第 7 节中提供了未来可能的发展方向。最后第 8 节对全文进行了总结。

更多详细信息请参考原论文。

欢迎干货投稿 \ 论文宣传 \ 合作交流

推荐阅读

350篇文献总结可信推荐系统前沿进展
GNN最新综述 | 可信图神经网络的维度、方法以及趋势
基于对抗学习的隐私保护推荐算法

由于公众号试行乱序推送,您可能不再准时收到机器学习与推荐算法的推送。为了第一时间收到本号的干货内容, 请将本号设为星标,以及常点文末右下角的“在看”。

喜欢的话点个在看吧👇
登录查看更多
3

相关内容

图机器学习(Machine Learning on Graphs)是一项重要且普遍存在的任务,其应用范围从药物设计到社交网络中的友情推荐。这个领域的主要挑战是找到一种表示或编码图结构的方法,以便机器学习模型能够轻松地利用它。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
「机器学习中差分隐私」最新2022进展综述
专知会员服务
52+阅读 · 2022年9月9日
联邦学习攻防研究综述
专知会员服务
56+阅读 · 2022年7月15日
可信图神经网络综述:隐私,鲁棒性,公平和可解释性
专知会员服务
39+阅读 · 2022年5月5日
「联邦学习隐私保护 」最新2022研究综述
专知会员服务
116+阅读 · 2022年4月1日
图嵌入模型综述
专知会员服务
87+阅读 · 2022年1月17日
联邦学习研究综述
专知会员服务
148+阅读 · 2021年12月25日
区块链数据安全服务综述
专知会员服务
54+阅读 · 2021年11月10日
专知会员服务
112+阅读 · 2020年11月16日
「机器学习中差分隐私」最新2022进展综述
「联邦学习隐私保护 」最新2022研究综述
专知
16+阅读 · 2022年4月1日
2022最新图嵌入模型综述
机器学习与推荐算法
3+阅读 · 2022年1月18日
图嵌入模型综述
专知
3+阅读 · 2022年1月17日
基于区块链技术的推荐算法综述
机器学习与推荐算法
2+阅读 · 2021年12月1日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
Arxiv
0+阅读 · 2022年11月27日
Arxiv
24+阅读 · 2018年10月24日
Arxiv
26+阅读 · 2018年2月27日
VIP会员
相关VIP内容
「机器学习中差分隐私」最新2022进展综述
专知会员服务
52+阅读 · 2022年9月9日
联邦学习攻防研究综述
专知会员服务
56+阅读 · 2022年7月15日
可信图神经网络综述:隐私,鲁棒性,公平和可解释性
专知会员服务
39+阅读 · 2022年5月5日
「联邦学习隐私保护 」最新2022研究综述
专知会员服务
116+阅读 · 2022年4月1日
图嵌入模型综述
专知会员服务
87+阅读 · 2022年1月17日
联邦学习研究综述
专知会员服务
148+阅读 · 2021年12月25日
区块链数据安全服务综述
专知会员服务
54+阅读 · 2021年11月10日
专知会员服务
112+阅读 · 2020年11月16日
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
Top
微信扫码咨询专知VIP会员