Real-time, energy-efficient inference on edge devices is essential for graph classification across a range of applications. Hyperdimensional Computing (HDC) is a brain-inspired computing paradigm that encodes input features into low-precision, high-dimensional vectors with simple element-wise operations, making it well-suited for resource-constrained edge platforms. Recent work enhances HDC accuracy for graph classification via Nyström kernel approximations. Edge acceleration of such methods faces several challenges: (i) redundancy among (landmark) samples selected via uniform sampling, (ii) storing the Nyström projection matrix under limited on-chip memory, (iii) expensive, contention-prone codebook lookups, and (iv) load imbalance due to irregular sparsity in SpMV. To address these challenges, we propose NysX, the first end-to-end FPGA accelerator for Nyström-based HDC graph classification at the edge. NysX integrates four key optimizations: (i) a hybrid landmark selection strategy combining uniform sampling with determinantal point processes (DPPs) to reduce redundancy while improving accuracy; (ii) a streaming architecture for Nyström projection matrix maximizing external memory bandwidth utilization; (iii) a minimal-perfect-hash lookup engine enabling $O(1)$ key-to-index mapping with low on-chip memory overhead; and (iv) sparsity-aware SpMV engines with static load balancing. Together, these innovations enable real-time, energy-efficient inference on resource-constrained platforms. Implemented on an AMD Zynq UltraScale+ (ZCU104) FPGA, NysX achieves $6.85\times$ ($4.32\times$) speedup and $169\times$ ($314\times$) energy efficiency gains over optimized CPU (GPU) baselines, while improving classification accuracy by $3.4\%$ on average across TUDataset benchmarks, a widely used standard for graph classification.


翻译:在边缘设备上实现实时、高能效的推理对于图分类在众多应用场景中至关重要。超维计算(HDC)是一种受大脑启发的计算范式,它通过简单的逐元素操作将输入特征编码为低精度、高维度的向量,使其非常适合资源受限的边缘平台。近期研究通过Nyström核近似方法提升了HDC在图分类任务中的准确性。此类方法的边缘加速面临多项挑战:(i)通过均匀采样选取的(地标)样本间存在冗余;(ii)在有限的片上存储器中存储Nyström投影矩阵;(iii)昂贵且易引发访问冲突的码本查找;(iv)稀疏矩阵-向量乘法(SpMV)中不规则稀疏性导致的负载不均衡。为应对这些挑战,我们提出了NysX,这是首个面向边缘、基于Nyström的HDC图分类端到端FPGA加速器。NysX集成了四项关键优化:(i)结合均匀采样与行列式点过程(DPPs)的混合地标选择策略,以减少冗余并提升准确性;(ii)用于Nyström投影矩阵的流式架构,最大化外部存储器带宽利用率;(iii)基于最小完美哈希的查找引擎,实现$O(1)$的键到索引映射,且片上内存开销低;(iv)具备静态负载均衡的稀疏感知SpMV引擎。这些创新共同实现了在资源受限平台上的实时、高能效推理。在AMD Zynq UltraScale+(ZCU104)FPGA上实现后,NysX相比优化的CPU(GPU)基线实现了$6.85\times$($4.32\times$)的加速比和$169\times$($314\times$)的能效提升,同时在广泛使用的图分类基准TUDataset上平均分类准确率提升了$3.4\\%$。

0
下载
关闭预览

相关内容

【NeurIPS2019】图变换网络:Graph Transformer Network
专知会员服务
112+阅读 · 2019年11月25日
论文浅尝 | GEOM-GCN: Geometric Graph Convolutional Networks
开放知识图谱
14+阅读 · 2020年4月8日
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
【NeurIPS2019】图变换网络:Graph Transformer Network
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
VIP会员
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员