Deep neural networks (DNNs) have been successfully employed in a multitude of applications with remarkable performance. As such performance is achieved at a significant computational cost, several embedded applications demand fast and efficient hardware accelerators for DNNs. Previously proposed application specific integrated circuit (ASIC) architectures strive to utilize arrays of hundreds of processing elements (PEs) and reduce power-hungry DRAM accesses using multiple dataflows requiring complex PE architectures. These consume significant area and reduce the maximum clock frequency. This paper introduces the Kraken architecture, which optimally processes the convolutional layers, fully-connected layers, and matrix products of any DNN through a hardware-friendly uniform dataflow. This enables maximal data reuse of weights, inputs, and outputs, with a bare-bones PE design and on-the-fly dynamic reconfiguration. Kraken, implemented in 65-nm CMOS technology at 400 MHz, packs 672 PEs in 7.3 mm2, with a peak performance of 537.6 Gops. Kraken processes the convolutional layers of AlexNet, VGG-16, and ResNet-50 at 336.6, 17.5, and 64.2 frames/s, respectively, hence outperforming the state-of-the-art ASIC architectures in terms of overall performance efficiency, DRAM accesses, arithmetic intensity, and throughput, with 5.8x more Gops/mm2 and 1.6x more Gops/W.


翻译:深心神经网络(DNNS)已被成功应用于许多具有显著性能的应用中,由于这种性能以很高的计算成本实现,一些嵌入应用程序要求DNNS快速高效的硬件加速器。以前提议的应用程序具体集成电路(ASIC)结构努力利用数百个处理元件的阵列,并使用需要复杂的PE结构的多个数据流减少对电饥饿的DRAM访问。这些系统消耗大量区域,并减少最大时钟频率。本文件介绍克拉肯结构,通过硬件友好的统一数据流,优化处理任何DNNS的卷层、完全连接层和矩阵产品。这可以使重量、投入和产出的最大化数据再利用,同时使用光ones PE 设计和在飞行时的动态重组。克拉肯,在65-nm CMOS 技术中实施了400兆赫,将672个PE以7.mm2为单位,最高性能为537.6戈普斯。克拉肯将AlexNet、VGG-16和ResNet-60x的基层平面、A-366、17.5、GGO-RA-SAL-SAL-SAL-SD-SD-SB-C-C-C-C-C-C-C-C-C-SDRIS-C-C-C-C-SD-SB-SB-SD-S-SB-SD-SD-SB-SB-C-S-S-SB-SD-S-SD-SD-SD-SD-x、17.5、17.5、17.5、更高性能/B-S-S-S-S-SD-SD-S-S-S-S-S-S-S-S-S-S-S-S-S-S-SD-SD-S-S-S-S-S-S-SD-x-x-SD-x-x-x-SD-xxx、17.5、17.5、17.5、17/5-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S

0
下载
关闭预览

相关内容

【硬核书】矩阵代数基础,248页pdf
专知会员服务
84+阅读 · 2021年12月9日
专知会员服务
60+阅读 · 2020年3月19日
专知会员服务
109+阅读 · 2020年3月12日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
151+阅读 · 2019年10月12日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
39+阅读 · 2019年10月9日
Deep Compression/Acceleration:模型压缩加速论文汇总
极市平台
14+阅读 · 2019年5月15日
图像分类论文与代码大列表
专知
6+阅读 · 2019年2月16日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
论文浅尝 | Improved Neural Relation Detection for KBQA
开放知识图谱
13+阅读 · 2018年1月21日
Highway Networks For Sentence Classification
哈工大SCIR
4+阅读 · 2017年9月30日
最佳实践:深度学习用于自然语言处理(三)
待字闺中
3+阅读 · 2017年8月20日
【推荐】图像分类必读开创性论文汇总
机器学习研究会
14+阅读 · 2017年8月15日
Arxiv
3+阅读 · 2021年10月14日
Arxiv
13+阅读 · 2021年6月14日
Arxiv
13+阅读 · 2019年11月14日
VIP会员
相关VIP内容
相关资讯
Deep Compression/Acceleration:模型压缩加速论文汇总
极市平台
14+阅读 · 2019年5月15日
图像分类论文与代码大列表
专知
6+阅读 · 2019年2月16日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
论文浅尝 | Improved Neural Relation Detection for KBQA
开放知识图谱
13+阅读 · 2018年1月21日
Highway Networks For Sentence Classification
哈工大SCIR
4+阅读 · 2017年9月30日
最佳实践:深度学习用于自然语言处理(三)
待字闺中
3+阅读 · 2017年8月20日
【推荐】图像分类必读开创性论文汇总
机器学习研究会
14+阅读 · 2017年8月15日
Top
微信扫码咨询专知VIP会员