来自中科院计算所的严明玉博士论文,入选2022年度“CCF优秀博士学位论文奖”初评名单! https://www.ccf.org.cn/Focus/2022-12-08/781244.shtml 图计算应用和图神经网络是处理图数据的核心应用,被广泛应用于各个领 域。图数据处理应用特有的执行行为导致传统的通用架构无法高效地执行上述 应用。随着智能万物互联时代的来临,上述应用急需高效的硬件平台加速。加速 图计算应用的主要挑战是不规则的执行行为,而加速图神经网络面临两个主要 的挑战是混合的执行行为和算法模型的快速演变。因此本文从分析图计算应用 和图神经网络的执行特征出发,对专用图处理加速架构进行了探索,设计了如下 三款加速架构分别应对上述三个挑战。具体主要包括以下三方面的贡献:
基于数据依赖感知的动态调度图计算加速架构 (GraphDynS): 首先,对图 计算应用因依赖图数据的不规则执行行为进行了深入分析,并归纳出导致 不规则执行行为的三种不规则性。然后,基于解耦合的 Vertex-centric 编程 模型解耦合图计算应用的硬件通路,以建立数据依赖可视化且易调度的硬 件通路。最后,在解耦合的硬件通路上基于数据依赖感知对不规则执行行 为进行动态调度,以消除不规则性对性能的影响。在 16nm 工艺下,得到 GraphDynS 的功率和面积分别为 3.38 W 和 12.08 mm2,并比最先进的图计 算加速架构 (Graphicionado) 快 1.8 倍且少 45% 能耗。•
多模混合图神经网络加速架构 (HyGCN): 对混合的执行行为进行了定量分析并设计了世界第一款图神经网络加速架构。该架构包含了图遍历引擎 和神经网络引擎,分别用于减少不规则执行行为对性能的影响和利用规则 执行行为提高执行效率。为了进一步提高整体性能,通过构建引擎间的数 据流减少了无效计算和访存,并基于优先级的访存调度策略高效地协调引 擎间的片外访存。在 12nm 工艺下,得到 HyGCN 的功率和面积分别为 6.7 W 和 8.8 mm2,比运行在 NVIDIA GPU V100 的最先进图神经网络软件框 架 (Pytorch Geometry) 快 6.5 倍且少 90% 能耗。•
可重配置图神经网络加速架构 (UFlowGCN): 虽然算法模型不停地演变, 但核心操作离不开邻居节点属性向量的聚合和节点属性向量的神经网络 变换,并且它们的计算图和访存分别可以用归约图和变长向量访存统一表 示。因此,本文首先提取了两者的统一微归约计算图,并设计了支持各种聚合操作和点乘的 8 输入微归约图计算单元。接着提出了动态数据流调度 机制,以通过微归约图处理单元构建各种类型和规模的计算图,实现了计 算资源的可重配置性。最后利用访存共性设计了高效支持变长向量访问的 存储子系统,实现了片上存储资源的可重配置性。在 12nm 工艺下,得到 UFlowGCN 的功率和面积分别为 18.6 W 和 14.5 mm2。UFlowGCN 在一定 程度上兼容未来的算法模型,并比 HyGCN 快 2.5 倍且少 29% 能耗。