Existing deep convolutional neural networks (CNNs) generate massive interlayer feature data during network inference. To maintain real-time processing in embedded systems, large on-chip memory is required to buffer the interlayer feature maps. In this paper, we propose an efficient hardware accelerator with an interlayer feature compression technique to significantly reduce the required on-chip memory size and off-chip memory access bandwidth. The accelerator compresses interlayer feature maps through transforming the stored data into frequency domain using hardware-implemented 8x8 discrete cosine transform (DCT). The high-frequency components are removed after the DCT through quantization. Sparse matrix compression is utilized to further compress the interlayer feature maps. The on-chip memory allocation scheme is designed to support dynamic configuration of the feature map buffer size and scratch pad size according to different network-layer requirements. The hardware accelerator combines compression, decompression, and CNN acceleration into one computing stream, achieving minimal compressing and processing delay. A prototype accelerator is implemented on an FPGA platform and also synthesized in TSMC 28-nm COMS technology. It achieves 403GOPS peak throughput and 1.4x~3.3x interlayer feature map reduction by adding light hardware area overhead, making it a promising hardware accelerator for intelligent IoT devices.


翻译:现有的深层神经神经网络(CNNs)在网络发酵期间产生大量的跨层特征数据。 要在嵌入系统中保持实时处理, 需要大型芯内存以缓冲层间特征图。 在本文件中, 我们提议一个高效硬件加速器, 配有层间特征压缩技术, 以大幅降低所需的芯内存内存尺寸和离芯内存存访问带宽度。 加速器将存储的数据转换成频率域, 使用硬件执行的 8x8 离散 Cosine 变异(DCT) 。 在 DCT 后通过量化去除高频组件。 使用粗缩缩式矩阵压缩来进一步压缩跨层特征图。 芯内存分配方案旨在支持根据不同网络级别要求对地貌缓冲大小和刮片大小进行动态配置。 硬件加速器将存储的数据转换为一个计算流, I- 降压和CNN 加速度, 实现最小压缩和处理延迟。 高频组件加速器在DCTC 28- MAS 平流中, 将一个有希望的硬化的硬体间硬体内, 将一个硬体内硬体内硬体内, 。

0
下载
关闭预览

相关内容

专知会员服务
25+阅读 · 2021年4月2日
知识图谱推理,50页ppt,Salesforce首席科学家Richard Socher
专知会员服务
105+阅读 · 2020年6月10日
专知会员服务
159+阅读 · 2020年1月16日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
58+阅读 · 2019年10月17日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
39+阅读 · 2019年10月9日
Deep Compression/Acceleration:模型压缩加速论文汇总
极市平台
14+阅读 · 2019年5月15日
AutoML与轻量模型大列表
专知
8+阅读 · 2019年4月29日
【NIPS2018】接收论文列表
专知
5+阅读 · 2018年9月10日
ERROR: GLEW initalization error: Missing GL version
深度强化学习实验室
9+阅读 · 2018年6月13日
语音顶级会议Interspeech2018接受论文列表!
专知
6+阅读 · 2018年6月10日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
可解释的CNN
CreateAMind
17+阅读 · 2017年10月5日
已删除
将门创投
5+阅读 · 2017年8月15日
【今日新增】IEEE Trans.专刊截稿信息8条
Call4Papers
7+阅读 · 2017年6月29日
Arxiv
28+阅读 · 2021年9月18日
Arxiv
19+阅读 · 2021年6月15日
Compression of Deep Learning Models for Text: A Survey
Accelerated Methods for Deep Reinforcement Learning
Arxiv
6+阅读 · 2019年1月10日
HAQ: Hardware-Aware Automated Quantization
Arxiv
6+阅读 · 2018年11月21日
VIP会员
相关资讯
Deep Compression/Acceleration:模型压缩加速论文汇总
极市平台
14+阅读 · 2019年5月15日
AutoML与轻量模型大列表
专知
8+阅读 · 2019年4月29日
【NIPS2018】接收论文列表
专知
5+阅读 · 2018年9月10日
ERROR: GLEW initalization error: Missing GL version
深度强化学习实验室
9+阅读 · 2018年6月13日
语音顶级会议Interspeech2018接受论文列表!
专知
6+阅读 · 2018年6月10日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
可解释的CNN
CreateAMind
17+阅读 · 2017年10月5日
已删除
将门创投
5+阅读 · 2017年8月15日
【今日新增】IEEE Trans.专刊截稿信息8条
Call4Papers
7+阅读 · 2017年6月29日
Top
微信扫码咨询专知VIP会员