8 月 18 日,全球数据挖掘领域顶级会议 KDD 2022 大奖公布,阿里巴巴达摩院团队斩获应用科学方向“最佳论文奖”,这是中国企业首次获得该重磅奖项。
KDD(ACM SIGKDD)是数据挖掘领域历史最悠久、规模最大的国际顶级学术会议,也是全球录取率最低的计算机顶会之一,在知识发现、数据挖掘、人工智能等领域具有重大影响力。KDD 组委会对达摩院获奖的联邦图学习开源工作 FederatedScope-GNN 给予充分肯定,评语提到,该工作“推动了联邦图学习技术的发展,并树立了优秀平台工作的榜样”。
KDD会议分为研究和应用科学两个方向,本年度共收到2448篇投稿,仅接受449篇。包括阿里巴巴、华为、腾讯、百度等多家中国科技企业均有论文被收录,其中阿里巴巴今年共34篇论文入选,是全球入选论文数量最多的企业之一,同时阿里巴巴独立获得了大会应用科学方向唯一的“最佳论文奖”。历年荣摘桂冠的包括来自谷歌、亚马逊、卡内基梅隆大学等海外知名机构的研究团队,国内企业此前从未获得该奖。
阿里巴巴达摩院获奖论文《
FederatedScope-GNN: Towards a Unified, Comprehensive and Efficient Package for Federated Graph Learning》聚焦联邦学习中应用广泛且技术复杂的联邦图学习方向,针对现有框架及算法库对图数据支持有限的情况,提出了包含丰富数据集及创新算法的易用平台,为该领域后续研究奠定坚实基础。
论文链接:
https://arxiv.org/pdf/2204.05562.pdf
今年以来,阿里巴巴达摩院在全球顶级学术会议上多次荣获大奖,目前已斩获 KDD 最佳论文、ACL 杰出论文、CVPR 最佳学生论文等奖项。
值得注意的是,今年 5 月份,阿里巴巴达摩院发布新型联邦学习框架 FederatedScope,通过事件驱动的编程范式构建联邦学习,大幅降低了相关技术的开发部署难度。本次 KDD 获奖工作即为该开源项目的一部分,其关注的对象是具有复杂链接关系的图数据类型,在科学探索、知识表示、互联网、金融等科研及工业领域均有广阔应用需求。
以下为达摩院作者团队对 FederatedScope-GNN 工作的详细解读:
图(graph)是一种用于描述对象间关系的数据类型,在现实生活中无处不在。例如在互联网领域,微博等社交网络将每个用户账号视为节点(node/vertex),根据好友关系给节点连边(edge);在金融领域,银行将每个账户视为一个节点,将转账关系视为节点间的边,即两个节点间有边表示对应的两个账户间发生过转账;在自然科学领域,科学家有时候将分子描述为一个图,其中节点象征原子,边象征原子间的化学键;在知识表示领域,人们习惯于将实体表示为节点,两个实体间存在关联关系则对其建立连边。
根据场景不同,图上的任务往往分为节点级别(node-level)、连接级别(link-level)和图级别(graph-level)。例如银行在反洗钱任务中需要预测每个账户是否是风险账户,即进行节点分类,这是一个典型的节点级别的任务;社交网络中的好友推荐,是预测两个节点之间是否存在连边,所以是连接级别的任务;而分子属性预测中,目标是预测每个分子图的某种属性,所以是图级别的任务。
在图数据上的各种任务中,近年来兴起的图神经网络(graph neural networks)得到学术界和工业界的广泛关注并取得了显著的成功。这些成功一方面得益于图神经网络强大的表示能力与泛化能力,同时也受益于上述各类现实场景中图数据的收集与积累。作为一种数据驱动的机器学习方法,更充足的图数据往往能引导图神经网络得到更优秀的性能。
因此,各个机构往往具有强烈的意愿去基于各方的图数据共同训练图神经网络。例如,若干银行共同训练反洗钱模型往往能得到分类准确率更高的图神经网络(如图一所示);多个研究机构希望能融合各自拥有的知识图谱来更准确地补全缺失的知识;多家药企已经开始尝试基于大家各自拥有的分子标注联合训练用于新药发现的图神经网络。
然而,考虑到数据隐私保护和商业竞争等因素,机构之间不能直接把原始的数据集中起来进行模型训练。如何在符合监管要求,即严格保护各方数据隐私的前提下进行合作,共同训练图神经网络,成为了研究和应用的焦点。联邦图学习给出了一种可行的解法,即在 “数据可用而不可见” 的设定下,各方图数据不出域而只交互模型参数等信息来进行合作式的模型训练。
近年来,在全社会对隐私保护日益重视的背景下,联邦学习的研究和应用得到了长足发展。这一进步在很大程度上得益于联邦学习框架(framework)及算法库(package)的支持。这类基础设施和开箱即用的模块使得研究人员能够专注于理论和算法的创新而不需要过度关心实现的细节,同时使得工程师能高效开发、仿真、部署,大大加快了联邦学习在现实应用中的落地。具有代表性的联邦学习框架包括 Google 公司的 TensorFlow Federated (TFF)、微众银行的 FATE 等。
当前,这类框架对联邦学习中各个参与方的通信、计算图的描述和拆分调度、模型的部署与推理等一般性的基础设施均有完整丰富的支持。但是,现有联邦学习相关的框架和库对图联邦的支持相对有限,
框架中提供的现成图数据集、图神经网络架构、专门针对图学习设计的联邦学习算法等也还不够全面,难以基于这些已有工作去建立联邦图学习的基准
。这导致当前流行的若干联邦优化算法工作和广泛采用的基准,如 LEAF,更多地关注视觉和自然语言领域的基准,但是尚缺少对图神经网络在图数据上的性能评估。
而且,针对图数据的联邦学习算法有别于常规算法简单的聚合行为,对算法实现提出了更多要求。一方面是参与者间交换的数据更多种多样,比如近期发表的 FedSage + 算法需要在参与者间交换节点的嵌入式表示以及一个关于邻居特征的生成模型。同时,更多样的信息交换导致各个参与者需要有更丰富的行为去处理收到的信息,例如 GCFL + 算法中 server 需要动态地对收集到的梯度进行聚类操作。现有框架大多以中心化的视角,让开发者以声明式的编程范式描述计算图来表达算法流程。这种方式虽然适用于实现常规的联邦学习算法(例如 FedAvg),却对实现上述联邦图学习算法带来了较高的开发门槛。
在这个背景下,学术界和工业界都对一款功能全面且对实现联邦图学习算法友好的框架具有强烈需求。
FederatedScope-GNN:为联邦图学习建立丰富基准
为了更好地满足上述需求,阿里巴巴达摩院智能计算实验室提出并基于联邦学习框架 FederatedScope 实现了针对图学习的库 FederatedScope-GNN,并以此工作形成了本次获奖论文《FederatedScope-GNN: Towards a Unified, Comprehensive and Efficient Package for Federated Graph Learning》。
FederatedScope-GNN 针对图学习提供了 DataZoo 和 ModelZoo,分别为用户提供了丰富多样的联邦图数据集和相应的模型与算法
。DataZoo 既包含若干新引入的数据集,也实现了大量不同类型的 splitters,用于通过单机图数据集来构造联邦图数据集。DataZoo 提供的大量数据集涵盖了不同领域、不同任务类型、不同统计异质性的联邦图数据,大大方便了使用者对所关注算法进行全面的评估。
ModelZoo 提供了丰富的图神经网络实现,既包含传统的 GCN、GIN、GAT、GraphSage 等架构,也提供了最新的 GPRGNN 等拆分了特征变换与消息传播的架构。同时,ModelZoo 也包含了像 FedSage + 和 GCFL + 这样最新的联邦图学习算法的实现。其中,得益于底层框架事件驱动(event-driven)的编程范式,参与者间多样的消息交换和参与者丰富的行为得以模块化地进行拆分实现(如图二所示)。ModelZoo 给研究人员复现相关工作以及建立新的基准带来了更多便利。
图二:基于事件驱动的底层框架 FederatedScope 来实现联邦图学习算法 FedSage+。
与此同时,针对联邦图学习对超参数敏感的现象,FederatedScope-GNN 还实现了模型调优 (model tuning) 相关的模块,包括多保真度的 Successive Halving Algorithm 和新近提出的联邦超参优化算法 FedEx,以及针对联邦异质任务的个性化(如图三所示,各个参与者被允许使用独立的特有神经架构而只聚合学习共享部分)。考虑到诸如 FedSage + 这类联邦图学习算法交换节点嵌入式表示等信息的特点,FederatedScope-GNN 提供了丰富的隐私评估算法对算法在隐私保护方面的能力进行检验。
图三:一个个性化图神经网络的示例,其中各参与方仅共享模型的一部分参数。
基于上述功能和特性,该获奖论文建立了全面丰富的关于联邦图学习的基准,包含不同图上任务、不同图神经网络架构、不同的联邦优化算法等,为该领域后续的研究奠定了坚实基础。同时,关于联邦设定下对图神经网络训练进行超参优化的实验,展示了对不同保真度维度进行权衡的潜在优势;关于个性化的实验,展示了应对各参与方同配度差异的有效性。
FederatedScope-GNN 给相关领域的研究和应用带来了极大的便利,其对应论文的获奖不仅反映了各位相关专家学者对这一工作的肯定,同时也体现了学界对联邦图学习领域未来长足发展的期冀。
一个值得指出且被广泛注意的研究方向是在保护好各参与方隐私的前提下,关注各参与方如何对其图数据进行补全,使得图神经网络能基于完整图结构进行消息传播
。FederatedScope-GNN 所提供的功能和特性将支持研究与开发人员开展更多的相关研究、落地更多的实际应用。
王桢,阿里巴巴达摩院智能计算实验室算法专家。2017 年博士毕业于中山大学数据科学与计算机学院,读博期间以一作身份发表知识图谱补全算法 TransH,单篇引用量超 2500 次。毕业后加入阿里巴巴,曾任阿里云高级算法工程师,专注于强化学习方向。在达摩院工作期间,致力于联邦图学习等领域前沿研究,多次在 KDD Cup 比赛中取得高排名成绩,发表多篇国际顶级会议论文,并作为核心设计与开发人员参与开源 FederatedScope 平台。
李雅亮,阿里巴巴达摩院智能计算实验室高级算法专家,2017 年于纽约州立大学布法罗分校计算机科学与工程系取得博士学位。研究领域包括数据融合、因果推断、自动机器学习、隐私计算,研究成果发表于 KDD、ACL、SIGIR、NeurIPS、WWW、TKDE 等多个领域的顶尖国际会议与期刊。他担任了 NeurIPS'21、NeurIPS'22、AAAI'22 的领域主席,在 IJCAI 和 NeurIPS 上三次组织 workshop,在 CIKM'22 上组织了 AnalytiCup 比赛,并在 KDD、AAAI 上多次做了 Tutorial。
北京时间8月22日20:30-21:30,本文作者王桢将在机器之心视频号线上解读此研究,感兴趣的读者可以关注视频号观看直播。
掌握「声纹识别技术」:前20小时交给我,后9980小时……
《声纹识别:从理论到编程实战》中文课上线,由谷歌声纹团队负责人王泉博士主讲。
课程视频内容共 12 小时,着重介绍基于深度学习的声纹识别系统,包括大量学术界与产业界的最新研究成果。
同时课程配有 32 次课后测验、10 次编程练习、10 次大作业,确保课程结束时可以亲自上手从零搭建一个完整的声纹识别系统。
课程目前还在
首周优惠中
,欢迎对声纹领域感兴趣的同学一起学习。
© THE END
转载请联系本公众号获得授权
投稿或寻求报道:content@jiqizhixin.com