The configurable building blocks of current FPGAs -- Logic blocks (LBs), Digital Signal Processing (DSP) slices, and Block RAMs (BRAMs) -- make them efficient hardware accelerators for the rapid-changing world of Deep Learning (DL). Communication between these blocks happens through an interconnect fabric consisting of switching elements spread throughout the FPGA. In this paper, a new block, Compute RAM, is proposed. Compute RAMs provide highly-parallel processing-in-memory (PIM) by combining computation and storage capabilities in one block. Compute RAMs can be integrated in the FPGA fabric just like the existing FPGA blocks and provide two modes of operation (storage or compute) that can be dynamically chosen. They reduce power consumption by reducing data movement, provide adaptable precision support, and increase the effective on-chip memory bandwidth. Compute RAMs also help increase the compute density of FPGAs. In our evaluation of addition, multiplication and dot-product operations across multiple data precisions (int4, int8 and bfloat16), we observe an average savings of 80% in energy consumption, and an improvement in execution time ranging from 20% to 80%. Adding Compute RAMs can benefit non-DL applications as well, and make FPGAs more efficient, flexible, and performant accelerators.


翻译:在当前 FPGA 切片 -- -- 逻辑区块(LBs)、数字信号处理(DSP) 和块内存(BRAM) 的可配置构件块 -- -- 逻辑区块(LBs)、数字信号处理(DSP) 和块内存(BRAMs) -- -- 使这些区块之间的沟通通过由切换元素构成的互连结构而发生。在本文中,提议了一个新的区块,即计算内存(Compete RAs) 。计算内存(PIM), 将计算和存储能力合并到一个区块内存(BRAMs) 。可以像现有的FPGA 区块那样,将内存带(DS) 的硬硬硬件加速器加速器(DRM) 整合到 FPGA 结构中, 在80 平均节能中,在80 节能中,在80 节能中,在80 节能中,在运行,在80 节能中,在80 节能中,在运行,在80次的节能中,在80次内,在运行,在80次的节能中,在80次的节能中,在80次的节能中,在80次的节能中,在80次的节能。

0
下载
关闭预览

相关内容

FPGA加速深度学习综述
专知会员服务
68+阅读 · 2021年11月13日
专知会员服务
22+阅读 · 2021年7月15日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
77+阅读 · 2020年7月26日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
39+阅读 · 2019年10月9日
已删除
将门创投
4+阅读 · 2019年8月22日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
利用动态深度学习预测金融时间序列基于Python
量化投资与机器学习
18+阅读 · 2018年10月30日
分布式TensorFlow入门指南
机器学习研究会
4+阅读 · 2017年11月28日
【推荐】YOLO实时目标检测(6fps)
机器学习研究会
20+阅读 · 2017年11月5日
前端高性能计算(4):GPU加速计算
前端大全
7+阅读 · 2017年10月26日
【推荐】基于TVM工具链的深度学习编译器 NNVM compiler发布
机器学习研究会
5+阅读 · 2017年10月7日
【推荐】SVM实例教程
机器学习研究会
17+阅读 · 2017年8月26日
Arxiv
0+阅读 · 2021年11月22日
Arxiv
0+阅读 · 2021年11月18日
VIP会员
相关资讯
已删除
将门创投
4+阅读 · 2019年8月22日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
利用动态深度学习预测金融时间序列基于Python
量化投资与机器学习
18+阅读 · 2018年10月30日
分布式TensorFlow入门指南
机器学习研究会
4+阅读 · 2017年11月28日
【推荐】YOLO实时目标检测(6fps)
机器学习研究会
20+阅读 · 2017年11月5日
前端高性能计算(4):GPU加速计算
前端大全
7+阅读 · 2017年10月26日
【推荐】基于TVM工具链的深度学习编译器 NNVM compiler发布
机器学习研究会
5+阅读 · 2017年10月7日
【推荐】SVM实例教程
机器学习研究会
17+阅读 · 2017年8月26日
Top
微信扫码咨询专知VIP会员