Residual block is a very common component in recent state-of-the art CNNs such as EfficientNet or EfficientDet. Shortcut data accounts for nearly 40% of feature-maps access in ResNet152 [8]. Most of the previous DNN compilers, accelerators ignore the shortcut data optimization. This paper presents ShortcutFusion, an optimization tool for FPGA-based accelerator with a reuse-aware static memory allocation for shortcut data, to maximize on-chip data reuse given resource constraints. From TensorFlow DNN models, the proposed design generates instruction sets for a group of nodes which uses an optimized data reuse for each residual block. The accelerator design implemented on the Xilinx KCU1500 FPGA card significantly outperforms NVIDIA RTX 2080 Ti, Titan Xp, and GTX 1080 Ti for the EfficientNet inference. Compared to RTX 2080 Ti, the proposed design is 1.35-2.33x faster and 6.7-7.9x more power efficient. Compared to the result from baseline, in which the weights, inputs, and outputs are accessed from the off-chip memory exactly once per each layer, ShortcutFusion reduces the DRAM access by 47.8-84.8% for RetinaNet, Yolov3, ResNet152, and EfficientNet. Given a similar buffer size to ShortcutMining [8], which also mine the shortcut data in hardware, the proposed work reduces off-chip access for feature-maps 5.27x while accessing weight from off-chip memory exactly once.


翻译:残留区块是最近最先进的CNN 中非常常见的元素。 例如, 高效Net 或高效DNN。 快捷式数据占ResNet152 [8] 中近40%的地貌图访问量。 大多数前 DNN 编译器、 加速器忽略了快捷式数据优化 。 本文为基于 FPGA 的加速器提供了一个快捷式Fusion 优化工具, 为快捷式数据配置了一个再利用感知的静态存储器, 以便根据资源限制, 最大限度地再利用机芯数据。 从 TensorFlow DNNN 模型中, 拟议的设计为一组节点生成了指令数据集, 该节点对每个剩余区块使用最优化的数据再利用。 在 Xillinx KCUCU 1500 PPGA 卡上安装的加速器设计大大超过 NVMIDIA RTX 2080 Ti、 Titan Xp 和 GTTX 1080 Ti 用于高效网络引用。 与 RTX 2080 Ti 相比,, 的拟议设计是 1.35- fricknal- slix 快速访问访问进入更快和6. 节节节节的节节节节节节节节节节节节节节, 。 。 和节中, 从每节中, 直路路路段内, 直路段内运行运行减后, 直路段, 直路段, 直路路路段, 直路路路路数据。

0
下载
关闭预览

相关内容

专知会员服务
71+阅读 · 2021年5月28日
最新《联邦学习Federated Learning》报告,Federated Learning
专知会员服务
86+阅读 · 2020年12月2日
为什么有些模型FLOPs很低,推理速度却很慢?
极市平台
13+阅读 · 2020年4月27日
GPU 显存不足怎么办?
AINLP
13+阅读 · 2019年8月16日
已删除
将门创投
14+阅读 · 2019年5月29日
深度卷积神经网络中的降采样
极市平台
12+阅读 · 2019年5月24日
Hierarchically Structured Meta-learning
CreateAMind
24+阅读 · 2019年5月22日
Deep Compression/Acceleration:模型压缩加速论文汇总
极市平台
14+阅读 · 2019年5月15日
Deep Reinforcement Learning 深度增强学习资源
数据挖掘入门与实战
7+阅读 · 2017年11月4日
前端高性能计算(4):GPU加速计算
前端大全
7+阅读 · 2017年10月26日
【推荐】用Tensorflow理解LSTM
机器学习研究会
36+阅读 · 2017年9月11日
TResNet: High Performance GPU-Dedicated Architecture
Arxiv
8+阅读 · 2020年3月30日
Arxiv
3+阅读 · 2018年3月13日
VIP会员
相关VIP内容
相关资讯
为什么有些模型FLOPs很低,推理速度却很慢?
极市平台
13+阅读 · 2020年4月27日
GPU 显存不足怎么办?
AINLP
13+阅读 · 2019年8月16日
已删除
将门创投
14+阅读 · 2019年5月29日
深度卷积神经网络中的降采样
极市平台
12+阅读 · 2019年5月24日
Hierarchically Structured Meta-learning
CreateAMind
24+阅读 · 2019年5月22日
Deep Compression/Acceleration:模型压缩加速论文汇总
极市平台
14+阅读 · 2019年5月15日
Deep Reinforcement Learning 深度增强学习资源
数据挖掘入门与实战
7+阅读 · 2017年11月4日
前端高性能计算(4):GPU加速计算
前端大全
7+阅读 · 2017年10月26日
【推荐】用Tensorflow理解LSTM
机器学习研究会
36+阅读 · 2017年9月11日
Top
微信扫码咨询专知VIP会员