图计算加速架构综述

2021 年 4 月 5 日 专知


摘要: 在大数据时代,图被用于各种领域表示具有复杂联系的数据.图计算应用被广泛用于各种领域,以挖掘图数据中潜在的价值.图计算应用特有的不规则执行行为,引发了不规则负载、密集读改写更新操作、不规则访存和不规则通信等挑战.现有通用架构无法有效地应对上述挑战.为了克服加速图计算应用面临的挑战,大量的图计算硬件加速架构设计被提出.它们为图计算应用定制了专用的计算流水线、访存子系统、存储子系统和通信子系统.得益于这些定制的硬件设计,图计算加速架构相比于传统的通用处理器架构,在性能和能效上均取得了显著的提升.为了让相关的研究学者深入了解图计算硬件加速架构,首先基于计算机的金字塔组织结构,从上到下对现有工作进行分类和总结,并以多个完整架构实例分析应用于不同层次的优化技术之间的关系.接着以图神经网络加速架构的具体案例讨论新兴图计算应用的加速架构设计.最后对该领域的前沿研究方向进行了总结,并放眼于未来探讨图计算加速架构的发展趋势.


大数据时代,越来越多的数据采用图结构进行 表示.图是一种能够表达对象之间复杂关系的数据 存储方式,被广泛用于表示人际关系、分子拓扑结 构、大脑神经元链接等.图数据中蕴含着丰富的信 息,图计算应用是一种挖掘图数据中隐含价值的重 要应用.为了快速处理图数据和应对不断增长的图 数据,图计算应用被广泛部署于各大数据中心,成为 数据中心的典型应用. 

源于图的无结构特性,图计算应用在现有通用 架构上无法被高效执行.现实生活中的图没有固定 的结构,节点的出边分布极度不均匀,节点与节点之 间的连接极为随机.由于图计算应用的执行行为依 赖于图数据,图数据的以上特性导致图计算应用的 执行行为非常不规则.这种不规则的执行行为导致 现有的通用架构在计算、访存和通信3个方面都面 临巨大挑战.在计算方面,计算单元面临负载不均 衡、密集读改写更新等挑战,导致基于 CPU 和 GPU 的图计算软件框架的性能严重不足.在访存方面,不 规则的细粒度访存导致 CPU 的 L2和 L3Cache的 命中率极低[1],Cacheline利用效率低下,同时也导致 了 GPU 的SIMT(singleinstructionmultiplethreads) 执行模型遇到了大量的访存歧义 (memorydiverG gence).在多节点计算、存储系统方面,不规则的细 粒度通信,导致了大量无效通信和通信带宽浪费.

为了应对图计算应用带来的挑战,为图计算定 制专用的加速架构是一种高效的解决方案.它能够 为数据中心带来数百倍的性能提升和数千倍的能耗 提升.图计算加速器的设计理念是根据图计算应用 的操作特性改造硬件数据通路,量身定制计算流水 线、内存子系统、存储子系统和通信子系统,从而为图计算应用的操作进行固化的硬件表达.近年来,大 量的图计算加速架构设计被提出,从不同的角度采 取多样的方法解决图计算应用的各项挑战。

为了让相关的研究人员对图计算加速架构的研 究现状和发展方向有深入的了解,本文从现有工作 出发探讨图计算加速架构设计面临的关键问题和主 要解决方法.值得关注的是,本文还着重探讨了一种 新兴的图计算应用,即图神经网络.该新兴图计算应 用同时具有传统图计算应用和传统神经网络应用的 执行特征,并且还具有与传统应用不同的计算和访 存特征.例如,由于节点的属性是高维数据,所以节 点的属性访问是粗粒度的不规则访问,与传统图计 算的细粒度不规则访问不同.除此之外,本文还对图 计算加速架构的前沿研究问题进行了归纳和总结, 并放眼于未来探讨其发展趋势.本文的工作具有一 定的指导作用,读者能够快速明白传统图计算应用 加速架构和新兴图神经网络加速架构的设计要点、 关键问题及对应的解决方案,了解目前图计算加速 架构设计的趋势和机遇,并且将相应的概念和技术 应用到未来的图计算加速架构的设计上现有调研文献[2]是基于硬件平台对现有的图 计算加速工作进行分类,涵盖了现场可编程门阵列 (fieldprogrammablegatearray,FPGA)、3DGstacking、 特定应用集 成 电 路 (applicationspecificintegrated circuit,ASIC)、GPU,目的是对每个工作的设计思 想进行介绍.文献[3]基于图计算加速的主要技术 (预处理、并行图计算和运行时调度)对现有工作分 类.本文的分类方法与前人不同.本文从图计算加速 架构的设计角度出发,基于计算机的金字塔组织结 构[4],从上到下,根据图计算应用带来的挑战、衍生的问题和解决方案对现有工作进行分类和总结,并 为前人的调研工作补充了许多新的先进设计,以及 加入了新兴的图神经网络加速架构的研究工作.除 此之外,本文也从图计算加速架构的测试评估与全 栈设计角度出发,对未来的研究方向进行了展望. Fig.1 CSRrepresentation 图1 CSR格式 

本文的主要贡献包括3个方面: 

1)以加速图计算应用遇到的关键挑战为导向, 以解决方案为核心,基于计算机金字塔组织结构,从 上到下,逐层对图计算加速架构的研究现状进行了 系统的归纳和总结,并以具体例子分析了不同层次 优化技术之间的关系. 
2)以具体图神经网络加速架构设计作为例子, 着重介绍和总结了新兴图计算应用(图神经网络)与 其特定的加速器设计.继神经网络加速架构之后,图 神经网络加速器必将掀起新的研究和产业化热潮.
3)从图计算加速架构评估与设计的角度对图 计算加速架构进行了展望,指出了全栈式设计方案 是实现产业化应用的关键,并阐述了基于 RISCGV 生态环境,有助于快速且低成本地实现图计算加速 架构的设计方案

专知便捷查看

便捷下载,请关注专知公众号(点击上方蓝色专知关注)

  • 后台回复“图计算” 就可以获取图计算加速架构综述》专知下载链接

专知,专业可信的人工智能知识分发 ,让认知协作更快更好!欢迎注册登录专知www.zhuanzhi.ai,获取5000+AI主题干货知识资料!
欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程资料和与专家交流咨询
点击“ 阅读原文 ”,了解使用 专知 ,查看获取5000+AI主题知识资源
登录查看更多
0

相关内容

专知会员服务
34+阅读 · 2021年6月24日
专知会员服务
64+阅读 · 2021年5月3日
专知会员服务
138+阅读 · 2021年3月30日
专知会员服务
47+阅读 · 2021年2月2日
图神经网络综述 (中文版),14页pdf
专知会员服务
331+阅读 · 2020年11月24日
专知会员服务
114+阅读 · 2020年8月22日
专知会员服务
40+阅读 · 2020年8月14日
专知会员服务
78+阅读 · 2020年8月4日
专知会员服务
80+阅读 · 2020年6月20日
深度神经网络模型压缩与加速综述
专知会员服务
128+阅读 · 2019年10月12日
【图计算】人工智能之图计算
产业智能官
17+阅读 · 2020年4月3日
图神经网络(Graph Neural Networks,GNN)综述
极市平台
104+阅读 · 2019年11月27日
硬件加速神经网络综述
计算机研究与发展
26+阅读 · 2019年2月1日
面向云端融合的分布式计算技术研究进展与趋势
中国计算机学会
19+阅读 · 2018年11月27日
【优青论文】深度神经网络压缩与加速综述
计算机研究与发展
14+阅读 · 2018年9月20日
CNN模型压缩与加速算法综述
微信AI
6+阅读 · 2017年10月11日
CNN 模型压缩与加速算法综述
机器学习研究会
16+阅读 · 2017年8月25日
Arxiv
0+阅读 · 2021年6月21日
Arxiv
103+阅读 · 2021年6月8日
Arxiv
37+阅读 · 2021年2月10日
Arxiv
35+阅读 · 2019年11月7日
A Comprehensive Survey on Graph Neural Networks
Arxiv
13+阅读 · 2019年3月10日
VIP会员
相关VIP内容
专知会员服务
34+阅读 · 2021年6月24日
专知会员服务
64+阅读 · 2021年5月3日
专知会员服务
138+阅读 · 2021年3月30日
专知会员服务
47+阅读 · 2021年2月2日
图神经网络综述 (中文版),14页pdf
专知会员服务
331+阅读 · 2020年11月24日
专知会员服务
114+阅读 · 2020年8月22日
专知会员服务
40+阅读 · 2020年8月14日
专知会员服务
78+阅读 · 2020年8月4日
专知会员服务
80+阅读 · 2020年6月20日
深度神经网络模型压缩与加速综述
专知会员服务
128+阅读 · 2019年10月12日
相关资讯
【图计算】人工智能之图计算
产业智能官
17+阅读 · 2020年4月3日
图神经网络(Graph Neural Networks,GNN)综述
极市平台
104+阅读 · 2019年11月27日
硬件加速神经网络综述
计算机研究与发展
26+阅读 · 2019年2月1日
面向云端融合的分布式计算技术研究进展与趋势
中国计算机学会
19+阅读 · 2018年11月27日
【优青论文】深度神经网络压缩与加速综述
计算机研究与发展
14+阅读 · 2018年9月20日
CNN模型压缩与加速算法综述
微信AI
6+阅读 · 2017年10月11日
CNN 模型压缩与加速算法综述
机器学习研究会
16+阅读 · 2017年8月25日
Top
微信扫码咨询专知VIP会员