Field Programmable Gate Arrays generate algorithmic specific architectures that improve the code's FLOP per watt ratio. Such devices are re-gaining interest due to the rise of new tools that facilitate their programming, such as OmpSs. The computational fluid dynamics community is always investigating new architectures that can improve its algorithm's performance. Commonly, those algorithms have a low arithmetic intensity and only reach a small percentage of the peak performance. The sparse matrix-vector multiplication is one of the most time-consuming operations on unstructured simulations. The matrix's sparsity pattern determines the indirect memory accesses of the multiplying vector. This data path is hard to predict, making traditional implementations fail. In this work, we present an FPGA architecture that maximizes the vector's re-usability by introducing a cache-like architecture. The cache is implemented as a circular list that maintains the BRAM vector components while needed. Following this strategy, up to 16 times of acceleration is obtained compared to a naive implementation of the algorithm.


翻译:野外可编程门阵列生成特定算法结构, 改进代码的 FLOP / wat 比率。 这些设备正在重新获得兴趣, 原因是新工具的兴起, 方便了它们的编程, 如 OmpS 。 计算流体动态社区总是在调查能够改进其算法性能的新结构。 通常, 这些算法的算术强度低, 只达到峰值的一小部分。 稀疏的矩阵- 矢量乘法是非结构化模拟中最耗时的操作之一。 矩阵的宽度模式决定着乘数矢量的间接内存访问。 这个数据路径很难预测, 使传统的执行失败 。 在这项工作中, 我们提出了一个 FPGA 结构, 通过引入一个类似缓存的架构, 使矢量的再可用性最大化。 缓存作为循环列表, 以维持所需的 BRAM 矢量组件 。 在此策略下, 与天真地执行算法相比, 获得最多 16 次的加速度 。

0
下载
关闭预览

相关内容

【干货书】开放数据结构,Open Data Structures,337页pdf
专知会员服务
16+阅读 · 2021年9月17日
专知会员服务
27+阅读 · 2021年7月3日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
77+阅读 · 2020年7月26日
机器学习入门的经验与建议
专知会员服务
92+阅读 · 2019年10月10日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
39+阅读 · 2019年10月9日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
《科学》(20190517出版)一周论文导读
科学网
5+阅读 · 2019年5月19日
Ray RLlib: Scalable 降龙十八掌
CreateAMind
9+阅读 · 2018年12月28日
利用动态深度学习预测金融时间序列基于Python
量化投资与机器学习
18+阅读 · 2018年10月30日
美国化学会 (ACS) 北京代表处招聘
知社学术圈
11+阅读 · 2018年9月4日
开发者应当了解的18套机器学习平台
深度学习世界
5+阅读 · 2018年8月14日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
IEEE2018|An Accurate and Real-time 3D Tracking System for Robots
【推荐】树莓派/OpenCV/dlib人脸定位/瞌睡检测
机器学习研究会
9+阅读 · 2017年10月24日
Arxiv
0+阅读 · 2021年9月26日
Arxiv
0+阅读 · 2021年9月24日
VIP会员
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
《科学》(20190517出版)一周论文导读
科学网
5+阅读 · 2019年5月19日
Ray RLlib: Scalable 降龙十八掌
CreateAMind
9+阅读 · 2018年12月28日
利用动态深度学习预测金融时间序列基于Python
量化投资与机器学习
18+阅读 · 2018年10月30日
美国化学会 (ACS) 北京代表处招聘
知社学术圈
11+阅读 · 2018年9月4日
开发者应当了解的18套机器学习平台
深度学习世界
5+阅读 · 2018年8月14日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
IEEE2018|An Accurate and Real-time 3D Tracking System for Robots
【推荐】树莓派/OpenCV/dlib人脸定位/瞌睡检测
机器学习研究会
9+阅读 · 2017年10月24日
Top
微信扫码咨询专知VIP会员