图计算加速架构综述

2021 年 4 月 5 日 专知

摘要：在大数据时代，图被用于各种领域表示具有复杂联系的数据.图计算应用被广泛用于各种领域，以挖掘图数据中潜在的价值.图计算应用特有的不规则执行行为，引发了不规则负载、密集读改写更新操作、不规则访存和不规则通信等挑战.现有通用架构无法有效地应对上述挑战.为了克服加速图计算应用面临的挑战，大量的图计算硬件加速架构设计被提出.它们为图计算应用定制了专用的计算流水线、访存子系统、存储子系统和通信子系统.得益于这些定制的硬件设计，图计算加速架构相比于传统的通用处理器架构，在性能和能效上均取得了显著的提升.为了让相关的研究学者深入了解图计算硬件加速架构，首先基于计算机的金字塔组织结构，从上到下对现有工作进行分类和总结，并以多个完整架构实例分析应用于不同层次的优化技术之间的关系.接着以图神经网络加速架构的具体案例讨论新兴图计算应用的加速架构设计.最后对该领域的前沿研究方向进行了总结，并放眼于未来探讨图计算加速架构的发展趋势.

大数据时代,越来越多的数据采用图结构进行表示．图是一种能够表达对象之间复杂关系的数据存储方式,被广泛用于表示人际关系、分子拓扑结构、大脑神经元链接等．图数据中蕴含着丰富的信息,图计算应用是一种挖掘图数据中隐含价值的重要应用．为了快速处理图数据和应对不断增长的图数据,图计算应用被广泛部署于各大数据中心,成为数据中心的典型应用．

源于图的无结构特性,图计算应用在现有通用架构上无法被高效执行．现实生活中的图没有固定的结构,节点的出边分布极度不均匀,节点与节点之间的连接极为随机．由于图计算应用的执行行为依赖于图数据,图数据的以上特性导致图计算应用的执行行为非常不规则．这种不规则的执行行为导致现有的通用架构在计算、访存和通信３个方面都面临巨大挑战．在计算方面,计算单元面临负载不均衡、密集读改写更新等挑战,导致基于 CPU 和 GPU 的图计算软件框架的性能严重不足．在访存方面,不规则的细粒度访存导致 CPU 的 L２和 L３Cache的命中率极低[１],Cacheline利用效率低下,同时也导致了 GPU 的SIMT(singleinstructionmultiplethreads) 执行模型遇到了大量的访存歧义 (memorydiverＧ gence)．在多节点计算、存储系统方面,不规则的细粒度通信,导致了大量无效通信和通信带宽浪费．

为了应对图计算应用带来的挑战,为图计算定制专用的加速架构是一种高效的解决方案．它能够为数据中心带来数百倍的性能提升和数千倍的能耗提升．图计算加速器的设计理念是根据图计算应用的操作特性改造硬件数据通路,量身定制计算流水线、内存子系统、存储子系统和通信子系统,从而为图计算应用的操作进行固化的硬件表达．近年来,大量的图计算加速架构设计被提出,从不同的角度采取多样的方法解决图计算应用的各项挑战。

为了让相关的研究人员对图计算加速架构的研究现状和发展方向有深入的了解,本文从现有工作出发探讨图计算加速架构设计面临的关键问题和主要解决方法．值得关注的是,本文还着重探讨了一种新兴的图计算应用,即图神经网络．该新兴图计算应用同时具有传统图计算应用和传统神经网络应用的执行特征,并且还具有与传统应用不同的计算和访存特征．例如,由于节点的属性是高维数据,所以节点的属性访问是粗粒度的不规则访问,与传统图计算的细粒度不规则访问不同．除此之外,本文还对图计算加速架构的前沿研究问题进行了归纳和总结, 并放眼于未来探讨其发展趋势．本文的工作具有一定的指导作用,读者能够快速明白传统图计算应用加速架构和新兴图神经网络加速架构的设计要点、关键问题及对应的解决方案,了解目前图计算加速架构设计的趋势和机遇,并且将相应的概念和技术应用到未来的图计算加速架构的设计上现有调研文献[２]是基于硬件平台对现有的图计算加速工作进行分类,涵盖了现场可编程门阵列 (fieldprogrammablegatearray,FPGA)、３DＧstacking、特定应用集成电路 (applicationspecificintegrated circuit,ASIC)、GPU,目的是对每个工作的设计思想进行介绍．文献[３]基于图计算加速的主要技术 (预处理、并行图计算和运行时调度)对现有工作分类．本文的分类方法与前人不同．本文从图计算加速架构的设计角度出发,基于计算机的金字塔组织结构[４],从上到下,根据图计算应用带来的挑战、衍生的问题和解决方案对现有工作进行分类和总结,并为前人的调研工作补充了许多新的先进设计,以及加入了新兴的图神经网络加速架构的研究工作．除此之外,本文也从图计算加速架构的测试评估与全栈设计角度出发,对未来的研究方向进行了展望． Fig．１ CSRrepresentation 图１ CSR格式

本文的主要贡献包括３个方面:

１)以加速图计算应用遇到的关键挑战为导向, 以解决方案为核心,基于计算机金字塔组织结构,从上到下,逐层对图计算加速架构的研究现状进行了系统的归纳和总结,并以具体例子分析了不同层次优化技术之间的关系．

２)以具体图神经网络加速架构设计作为例子, 着重介绍和总结了新兴图计算应用(图神经网络)与其特定的加速器设计．继神经网络加速架构之后,图神经网络加速器必将掀起新的研究和产业化热潮．

３)从图计算加速架构评估与设计的角度对图计算加速架构进行了展望,指出了全栈式设计方案是实现产业化应用的关键,并阐述了基于 RISCＧV 生态环境,有助于快速且低成本地实现图计算加速架构的设计方案

专知便捷查看