Existing FPGA-based DNN accelerators typically fall into two design paradigms. Either they adopt a generic reusable architecture to support different DNN networks but leave some performance and efficiency on the table because of the sacrifice of design specificity. Or they apply a layer-wise tailor-made architecture to optimize layer-specific demands for computation and resources but loose the scalability of adaptation to a wide range of DNN networks. To overcome these drawbacks, this paper proposes a novel FPGA-based DNN accelerator design paradigm and its automation tool, called DNNExplorer, to enable fast exploration of various accelerator designs under the proposed paradigm and deliver optimized accelerator architectures for existing and emerging DNN networks. Three key techniques are essential for DNNExplorer's improved performance, better specificity, and scalability, including (1) a unique accelerator design paradigm with both high-dimensional design space support and fine-grained adjustability, (2) a dynamic design space to accommodate different combinations of DNN workloads and targeted FPGAs, and (3) a design space exploration (DSE) engine to generate optimized accelerator architectures following the proposed paradigm by simultaneously considering both FPGAs' computation and memory resources and DNN networks' layer-wise characteristics and overall complexity. Experimental results show that, for the same FPGAs, accelerators generated by DNNExplorer can deliver up to 4.2x higher performances (GOP/s) than the state-of-the-art layer-wise pipelined solutions generated by DNNBuilder for VGG-like DNN with 38 CONV layers. Compared to accelerators with generic reusable computation units, DNNExplorer achieves up to 2.0x and 4.4x DSP efficiency improvement than a recently published accelerator design from academia (HybridDNN) and a commercial DNN accelerator IP (Xilinx DPU), respectively.


翻译:现有的基于 FPGA 的 DNNN 加速器通常属于两个设计范式。 它们要么采用通用的可重复使用架构来支持不同的 DNN 网络, 但由于牺牲了设计特殊性, 将某些性能和效率留在桌面上。 或者它们应用一个多层次的定制架构, 优化对计算和资源的特定层需求, 但将适应的可扩展性分散到广泛的 DNNN 网络。 为了克服这些缺陷, 本文建议建立一个新型的基于 FPGA 的 DNNN D加速器设计模式及其自动化工具, 称为 DNNExplor, 以便能够快速探索不同的加速器设计 DNNNNN网络, 并为现有和新兴的 DNNNNNC 网络提供最佳的加速器结构。 三种关键技术对于DNNTExplorlationer的性能、 更好的特性和可缩放量性 DNCFA 的D- drental- dreal- dreal- dreal- freal- dreal- developmental commaismal- dreal- dreal- dreal- deal- greal- dreal- developmental- dral- dreal- groceal- group) a a a 和制成一个由NDGADFA 和S- dir- dir- dir- hing- 和OFAFADRDMFDMIFS- 和S- 冲式的智能冲制式的模型, 和制式的模型, 和制式的发动机, 和SDFAFAFAFD- how- 和制式的发动机, 和制式的发动机, 和制式的发动机, 和制式的发动机, 和制式的发动机, 和制式的发动机和制式的发动机, 和制式的发动机, 和制式的发动机, 和制式的发动机和制式的发动机可以制式的发动机, 和制式的发动机, 和制式的内制式的内制式的内制式的内压- dRFAFAFAFAFADRDA-

0
下载
关闭预览

相关内容

图计算加速架构综述
专知会员服务
49+阅读 · 2021年4月5日
深度神经网络模型压缩与加速综述
专知会员服务
128+阅读 · 2019年10月12日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
39+阅读 · 2019年10月9日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
Deep Compression/Acceleration:模型压缩加速论文汇总
极市平台
14+阅读 · 2019年5月15日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
人工智能 | 国际会议信息10条
Call4Papers
5+阅读 · 2018年12月18日
AI/ML/DNN硬件加速设计怎么入门?
StarryHeavensAbove
10+阅读 · 2018年12月4日
前端高性能计算(4):GPU加速计算
前端大全
7+阅读 · 2017年10月26日
CNN模型压缩与加速算法综述
微信AI
6+阅读 · 2017年10月11日
Arxiv
1+阅读 · 2021年5月15日
Generative Adversarial Networks: A Survey and Taxonomy
VIP会员
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
Deep Compression/Acceleration:模型压缩加速论文汇总
极市平台
14+阅读 · 2019年5月15日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
人工智能 | 国际会议信息10条
Call4Papers
5+阅读 · 2018年12月18日
AI/ML/DNN硬件加速设计怎么入门?
StarryHeavensAbove
10+阅读 · 2018年12月4日
前端高性能计算(4):GPU加速计算
前端大全
7+阅读 · 2017年10月26日
CNN模型压缩与加速算法综述
微信AI
6+阅读 · 2017年10月11日
Top
微信扫码咨询专知VIP会员