摘要: 近年来,新兴的图神经网络因其强大的图学习和推理能力,得到学术界和工业界的广泛关注,被认为是推动人工智能领域迈入“认知智能”阶段的核心力量.图神经网络融合传统图计算和神经网络的执行过程,形成了不规则与规则的计算和访存行为共存的混合执行模式.传统处理器结构设计以及面向图计算和神经网络的加速结构不能同时应对2种对立的执行行为,无法满足图神经网络的加速需求.为解决上述问题,面向图神经网络应用的专用加速结构不断涌现,它们为图神经网络定制计算硬件单元和片上存储层次,优化计算和访存行为,取得了良好的加速效果.以图神经网络执行行为带来的加速结构设计挑战为出发点,从整体结构设计以及计算、片上访存、片外访存层次对该领域的关键优化技术进行详实而系统地分析与介绍.最后还从不同角度对图神经网络加速结构设计的未来方向进行了展望,期望能为该领域的研究人员带来一定的启发.
人 工 智 能 时 代,包 括 卷 积 神 经 网 络 (convoluG tionalneuralnetworks,CNNs)、循 环 神 经 网 络 (recurrentneuralnetworks,RNNs)等在内的机器 学习应用为社会与生活的智能化做出了革新性的巨 大贡献.然而传统的神经网络只能处理来自欧几里 得空间(Euclideanspace)的数据[1],该类分布规整 且结构固定的数据无法灵活地表示事物间的复杂关 系.现实生活中,越来越多的场景采用图作为表征数 据属性与关系的结构.非欧几里得空间中的图结构 理论上能够表征世间万物的互联关系(如社交网络、 路线图、基因结构等)[2],具有极为丰富和强大的数 据表达能力.图计算是一种能够对图进行处理,深入 挖掘图数据内潜藏信息的重要应用,但其不具备对 图数据进行学习的能力.
受到传统神经网络与图计算应用的双重启发, 图神经网络(graph neural networks,GNNs)应运 而生.图神经网络使得机器学习能够应用于非欧几 里得空间的图结构中,具备对图进行学习的能力.目 前图神经网络已经广泛应用到节点分类[3]、风控评 估[4]、推荐系统[5]等众多场景中.并且图神经网络被 认为是推动人工智能从“感知智能”阶段迈入“认知 智能”阶段的核心要素[6G8],具有极高的研究和应用 价值.
图神经网络的执行过程混合了传统图计算和神 经网络应用的不同特点.图神经网络通常包含图聚 合和图更新2个主要阶段.1)图聚合阶段的执行行 为与传统图计算相似,需要对邻居分布高度不规则 的图进行遍历,为每个节点进行邻居信息的聚合,因 此这一阶段具有极为不规则的计算和访存行为特 点.2)图更新阶段的执行行为与传统神经网络相似, 通过多层感知机(multiGlayerperceptrons,MLPs) 等方式来进行节点特征向量的变换与更新,这一阶 段具有规则的计算和访存行为特点.
图神经网络的混合执行行为给应用的加速带来 极大挑战,规则与不规则的计算与访存模式共存使 得传统处理器结构设计无法对其进行高效处理.图 聚合阶段高度不规则的执行行为使得 CPU 无法从 其多层次缓存结构与数据预取机制中获益.主要面 向密集规则型计算的 GPU 平台也因图聚合阶段图 遍历的不规则性、图更新阶段参数共享导致的昂贵 数据复制和线程同步开销等因素无法高效执行图神 经网络[9].而已有的面向传统图计算应用和神经网 络应用的专用加速结构均只关注于单类应用,无法 满足具有混合应用特征的图神经网络加速需求.因 此为图神经网络专门设计相应的加速结构势在必行.
自2020年全球首款面向图神经网络应用的专 用加速结构 HyGCN [9]发表后,短时间内学术界已 在该领域有多篇不同的硬件加速结构成果产出.为 使读者和相关领域研究人员能够清晰地了解图神经 网络加速结构的现有工作,本文首先对图神经网络 应用的基础知识、常见算法、应用场景、编程模型以 及主流的基于通用平台的框架与扩展库等进行介 绍.然后以图神经网络执行行为带来的加速结构设 计挑战为出发点,从整体结构设计以及计算、片上访 存、片外访存多个层次对该领域的关键优化技术进 行详实而系统的分析与介绍.最后还从不同角度对 图神经网络加速结构设计的未来方向进行了展望, 期望能为该领域的研究人员带来一定的启发.
当前已有的图神经网络应用领域综述论文从不 同角度对图神经网络算法以及软件框架进行总结与 分析.综述[1]对应用于数据挖掘和机器学习领域的 主流图神经网络算法进行分类,并讨论不同类别算 法的关系与异同.综述[10]依据图神经网络模型的结 构和训练策略的不同,提出新的分类方法,并以模型 的发展历史为主线进行介绍与分析.综述[11]围绕图 的表示学习(representationlearning)方法展开,并建立统一的框架来描述这些相关模型.综述[12]关注 于图神经网络的理论属性,总结图神经网络的表达 能力(expressivepower)并对比分析克服表达限制 的图神经网络模型.综述[13]基于计算机的金字塔组 织结构,对面向图计算的加速结构进行分类和总结, 对于新兴的图神经网络应用,仅以 HyGCN [9]作为 案例进行了讨论.与前述工作侧重点不同的是,本文 针对图神经网络加速结构设计过程中涉及到的关键 优化技术,进行系统性分析和总结,具有重要意义与 启发价值.