图神经网络(GNN)是一类基于深度学习的处理图域信息的方法,它通过将图广播操作和深度学习算法结合,可以让图的结构信息和顶点属性信息都参与到学习中,在顶点分类、图分类、链接预测等应用中表现出良好的效果和可解释性,已成为一种广泛应用的图分析方法.然而现有主流的深度学习框架(如Tensorflow、PyTorch等)没有为图神经网络计算提供高效的存储支持和图上的消息传递支持,这限制了图神经网络算法在大规模图数据上的应用.目前已有诸多工作针对图结构的数据特点和图神经网络的计算特点,探索了大规模图神经网络系统的设计和实现方案.本文首先对图神经网络的发展进行简要概述,总结了设计图神经网络系统需要面对的挑战;随后对目前图神经网络系统的工作进行介绍,从系统架构、编程模型、消息传递优化、图分区策略、通信优化等多个方面对系统进行分析;最后使用部分已开源的图神经网络系统进行实验评估,从精确度、性能、扩展性等多个方面验证这些系统的有效性.
http://www.jos.org.cn/jos/ch/reader/view_abstract.aspx?file_no=6311
深度学习在对象检测[1,2]、机器翻译[3,4]、语音识别[5]、物理系统[6,7]等领域取得了革命性的成功,推动了对 模式识别和数据挖掘的研究.现有的深度学习方法能够处理欧式空间表示下的规则数据,例如图像数据可以表示为欧几里得空间中的规则网络,而现实中的很多应用的数据以图的形式来表示.比如在社交网络[8]中,可以通 过图来表示对象之间的关联关系,从而能够进行社区发现、聚类[9]等算法.在生物领域[10],可以通过图来表示蛋 白质分子之间的关系,从而能够对蛋白质进行分类.在引文网络[11]领域,可以用图来表示论文之间的引用关系, 从而能够对论文按领域进行分组.在电子商务领域,可以用图来表示用户和商品之间的交互关系,从而能够对用 户进行商品的推荐.由于图数据的不规则性和稀疏性,每个顶点可能具有不同数量的邻居,并且图数据之间具有 依赖性,图中每个顶点的计算依赖于其他的顶点,所以导致很多深度学习方法无法直接应用在图数据中.例如, 卷积只能对图像或文本这样的欧几里得数据进行操作,无法直接应用于图数据,限制了深度学习方法在图领域 的发展.
随着图领域深度学习方法逐渐受到广泛关注,近些年出现了很多图神经网络算法,这些方法通过在传统深 度学习模型中添加图操作,应用图的结构信息和属性信息,来处理图数据的复杂性,成为解决图学习问题的有效 方法.比较典型的工作有 Structure2Vec[12]、GCN[13]、FastGCN[14]、AS-GCN[15]、GraphSAGE[16]等.图神经网络算法 将传统深度学习的方法,如卷积,扩展到了图数据领域,并结合数据传播的思想形成了在图上的深度学习算法, 其在社交网络、推荐系统[17]、知识图谱[18]、链接预测[19]等领域都取得了良好的效果.
图神经网络受到广泛关注的原因如下:首先,现有标准神经网络无法正确处理图数据的输入,因为其按照特 定顺序处理节点特征,而图中的顶点没有自然顺序.图神经网络算法采用在顶点上传播信息的计算方式,忽略顶 点的输入顺序解决了这个问题.第二,在标准神经网络中,图中顶点的依赖关系仅能作为顶点特征输入,而图神 经网络算法根据图中顶点的依赖关系进行信息传播,保留了图结构的信息,为下游深度学习任务提供了更加完 整的信息.第三,推理是高级人工智能的一个重要研究课题,图神经网络强大的表示能力,为进一步生成强大的 神经模型提供了基础.
现有的深度学习框架如 Tensorflow[20]、PyTorch[21]、Mxnet[22]以及 Cntk[23],和图处理框架 PowerLyra[24]、 PowerGraph[25]、Garaph[26]、Pregel[27]、TuX2[28]都不能很好地支持图神经网络的计算,这阻碍了图神经网络的进 一步发展,也限制了图神经网络在大规模数据中的应用.因此突破现有框架限制,开发专用于图神经网络训练的 系统,对于充分发挥图神经网络的潜力十分重要.
本文首先分析图神经网络算法的计算模式,提出大规模图神经系统训练存在的挑战,并对现有系统进行介绍.然后从系统架构、通信优化等多个维度对这些系统进行详细的分析和对比,对图神经网络系统的不同优化 技术进行总结和分析,并对目前已经开源的图神经网络系统设计实验,从多个方面测评系统的性能,验证系统有效性.
专知便捷查看
便捷下载,请关注专知公众号(点击上方蓝色专知关注)
后台回复“LGNN” 就可以获取《大规模图神经网络系统综述(中文版),23页pdf》专知下载链接