如何用FPGA加速卷积神经网络(CNN)？ - 专知

会员服务 ·

0

如何用FPGA加速卷积神经网络(CNN)？

2017 年 9 月 13 日 数盟

以下主要引用自西安邮电大学李涛老师关于连接智能和符号智能的报告，以及fpl2016上ASU的 Yufei Ma的文章和slide，推荐大家去读下原文。

Scalable and Modularized RTL Compilation of Convolutional Neural Network onto FPGA

地址：http://fpl2016.org/slides/S5b_1.pdf

我做过一些计算加速的工作，个人感觉要入手先要想好几个问题: 要加速的是什么应用，应用的瓶颈是什么，再针对这个瓶颈，参考前人工作选择合适的方案。

过早地执着于fpga的技术细节(用hdl还是hls，用啥芯片，用啥接口)容易只见树木不见森林。现在software define network/flash/xxx，已然大势所趋。之前开组会时跟同志们聊过，算法是纲，纲举目张；软件是妈，软件是爹，软件比基金委都亲。所以推荐先把cnn的算法看一下，拿一些开源代码跑一下经典的例子(lenet, alexnet, etc)看好输入输出，摸清算法。

比如以下是一个lenet的cpp和opencl的实现：

nachiket/papaa-opencl

地址：https://github.com/nachiket/papaa-opencl

以下图片源自Yufei Ma的Slide。

可以看到cnn算法主要由conv ，pooling，norm等几个部分组成。工作时将image跟weight灌进去，最终得到预测结果。

接下来拿profiler(比如perf)去分析下软件算法，找找热点和性能瓶颈。在cnn里面主要耗时的就是conv二维卷积了。性能瓶颈也主要在于卷积时需要大量乘加运算，参与计算的大量weight参数会带来的很多访存请求。

接下来考察下前人的工作和当前的灌水热点。按理说这种大量的乘加运算用dsp应该不错，但是在cnn中大家并不需要这么大的位宽，有时候8位就够了。dsp动辄32/64位的乘加器实在是浪费。于是乎大家就开始减位宽，多堆几个运算单元。面对大量的访存请求，大家就开始设计各种tricky的缓存了。

以下是大家的一些灌水方向：

于是就有了以下各路硬件设计：

有人照着dsp风格去设计加速器：

ceva也出了一系列面向CNN的IP：

有人用了脉动阵列或者Dataflow的风格：

有人设计了专用的芯片比如计算所的Cambricon：

还有的就是你提到的fpga。

所有的事情到了硬件层面实际上能用的手段也就有限了。不外乎堆资源和切流水两招。再不然就是做一些bit level的小技巧，比如乘法器变查表之类的，这些技巧在很多二十年前的dsp教材里面都描述得很细致了，拿来用就好。比如这本书亲测有效。

VLSI Digital Signal Processing System–Design and Implementation by Keshab

典型的fpga实现可以参考Yufei Ma的文章，不论是conv，还是pooling，依葫芦画瓢设计data path，切好流水，再想好状态机加上控制信号。这些就看大家撸rtl的基本功了。

比如Conv模块如下图，主要拿一堆乘法器以及加法器树搭好data path，切好流水，接着加上控制信号。

Pooling也是大同小异：

还有Norm：

最后把这些模块通过router连接，外面再套一层控制模块，封成ip就好了。

剩下的就是集成进你的系统(microblaze, nios还是arm，配好dma，写好灌数据的驱动，这些就是各有各的道儿了)。推荐动手码rtl前先写好文档，约定好端口，寄存器和软件api，否则边写边改容易乱。

整体来说，cnn这种应用流水线控制相对cpu简单，没有写cpu的那一堆hazard让人烦心，也不用写汇编器啥的。太大的cnn放在fpga里挺费劲，做出创新很难，但是fpga上写个能用的lenet这种级别的cnn还是挺容易的。最后还可以依照惯例跟cpu比性能，跟gpu比功耗。

文章来源：知乎

登录查看更多

0

相关内容

FPL

FPL：Field Programmable Logic and Applications。 Explanation：现场可编程逻辑及其应用。 Publisher：IEEE。 SIT： http://dblp.uni-trier.de/db/conf/fpl/

FPGA加速系统开发工具设计:综述与实践

FPGA加速系统开发工具设计:综述与实践

专知会员服务

69+阅读 · 2020年6月24日

基于FPGA的机器学习硬件加速研究进展

专知会员服务

81+阅读 · 2020年6月20日

卷积神经网络的概述论文:分析、应用和展望，21页pdf

卷积神经网络的概述论文:分析、应用和展望，21页pdf

专知会员服务

91+阅读 · 2020年4月7日

【Google】利用AUTOML实现加速感知神经网络设计

【Google】利用AUTOML实现加速感知神经网络设计

专知会员服务

30+阅读 · 2020年3月5日

南京大学吴建鑫教授「卷积神经网络CNN」笔记，35页pdf初学者学习指南理解CNN数学原理

南京大学吴建鑫教授「卷积神经网络CNN」笔记，35页pdf初学者学习指南理解CNN数学原理

专知会员服务

125+阅读 · 2020年2月23日

【ICLR-2020】网络反卷积，NETWORK DECONVOLUTION

【ICLR-2020】网络反卷积，NETWORK DECONVOLUTION

专知会员服务

39+阅读 · 2020年2月21日

【论文】深度学习的最优化:理论和算法（Optimization for deep learning: theory and algorithms）

【论文】深度学习的最优化:理论和算法（Optimization for deep learning: theory and algorithms）

专知会员服务

148+阅读 · 2019年12月28日

【NeurIPS2019教程】深度神经网络的高效处理:从算法到硬件架构

【NeurIPS2019教程】深度神经网络的高效处理:从算法到硬件架构

专知会员服务

61+阅读 · 2019年12月9日

【会议推荐】CV101大会：AI+ 大数据时代的特征比对，张广立，英特尔物联网事业部中国区软件优化开发经理。（附PPT）

【会议推荐】CV101大会：AI+ 大数据时代的特征比对，张广立，英特尔物联网事业部中国区软件优化开发经理。（附PPT）

专知会员服务

12+阅读 · 2019年11月19日

深度神经网络模型压缩与加速综述

深度神经网络模型压缩与加速综述

专知会员服务

130+阅读 · 2019年10月12日

硬件加速神经网络综述

硬件加速神经网络综述

计算机研究与发展

26+阅读 · 2019年2月1日

直白介绍卷积神经网络（CNN）

直白介绍卷积神经网络（CNN）

Python开发者

25+阅读 · 2018年4月8日

商汤联合提出基于FPGA的快速Winograd算法：实现FPGA之上最优的CNN表现与能耗

商汤联合提出基于FPGA的快速Winograd算法：实现FPGA之上最优的CNN表现与能耗

商汤科技

3+阅读 · 2018年2月6日

干货 | 卷积神经网络入门这一篇就够了

干货 | 卷积神经网络入门这一篇就够了

数盟

6+阅读 · 2018年1月18日

深度学习之CNN简介

深度学习之CNN简介

Python技术博文

20+阅读 · 2018年1月10日

【CNN】一文读懂卷积神经网络CNN

【CNN】一文读懂卷积神经网络CNN

产业智能官

18+阅读 · 2018年1月2日

干货 | 深度学习之卷积神经网络（CNN）的前向传播算法详解

干货 | 深度学习之卷积神经网络（CNN）的前向传播算法详解

机器学习算法与Python学习

9+阅读 · 2017年11月17日

CNN模型压缩与加速算法综述

CNN模型压缩与加速算法综述

微信AI

6+阅读 · 2017年10月11日

CNN 模型压缩与加速算法综述

CNN 模型压缩与加速算法综述

机器学习研究会

16+阅读 · 2017年8月25日

语音识别之--CNN在语音识别中的应用

语音识别之--CNN在语音识别中的应用

微信AI

9+阅读 · 2017年8月16日

Learning Dynamic Routing for Semantic Segmentation

Learning Dynamic Routing for Semantic Segmentation

Arxiv

8+阅读 · 2020年3月23日

Interpretable CNNs for Object Classification

Interpretable CNNs for Object Classification

Arxiv

20+阅读 · 2020年3月12日

A Survey of the Recent Architectures of Deep Convolutional Neural Networks

A Survey of the Recent Architectures of Deep Convolutional Neural Networks

Arxiv

39+阅读 · 2019年1月17日

RAM: Residual Attention Module for Single Image Super-Resolution

RAM: Residual Attention Module for Single Image Super-Resolution

Arxiv

9+阅读 · 2018年11月29日

ShuffleNet V2: Practical Guidelines for Efficient CNN Architecture Design

ShuffleNet V2: Practical Guidelines for Efficient CNN Architecture Design

Arxiv

4+阅读 · 2018年7月30日

Fast Feature Extraction with CNNs with Pooling Layers

Arxiv

5+阅读 · 2018年5月8日

Interpretable Convolutional Neural Networks

Arxiv

22+阅读 · 2018年2月14日

Arxiv

8+阅读 · 2018年1月25日

Learning Tree-based Deep Model for Recommender Systems

Arxiv

7+阅读 · 2018年1月8日

Caffeinated FPGAs: FPGA Framework For Convolutional Neural Networks

Arxiv

10+阅读 · 2016年9月30日

VIP会员

相关主题

卷积神经网络

亚利桑那州立大学（Arizona State University)

相关VIP内容

FPGA加速系统开发工具设计:综述与实践

FPGA加速系统开发工具设计:综述与实践

专知会员服务

69+阅读 · 2020年6月24日

基于FPGA的机器学习硬件加速研究进展

专知会员服务

81+阅读 · 2020年6月20日

卷积神经网络的概述论文:分析、应用和展望，21页pdf

卷积神经网络的概述论文:分析、应用和展望，21页pdf

专知会员服务

91+阅读 · 2020年4月7日

【Google】利用AUTOML实现加速感知神经网络设计

【Google】利用AUTOML实现加速感知神经网络设计

专知会员服务

30+阅读 · 2020年3月5日

南京大学吴建鑫教授「卷积神经网络CNN」笔记，35页pdf初学者学习指南理解CNN数学原理

南京大学吴建鑫教授「卷积神经网络CNN」笔记，35页pdf初学者学习指南理解CNN数学原理

专知会员服务

125+阅读 · 2020年2月23日

【ICLR-2020】网络反卷积，NETWORK DECONVOLUTION

【ICLR-2020】网络反卷积，NETWORK DECONVOLUTION

专知会员服务

39+阅读 · 2020年2月21日

【论文】深度学习的最优化:理论和算法（Optimization for deep learning: theory and algorithms）

【论文】深度学习的最优化:理论和算法（Optimization for deep learning: theory and algorithms）

专知会员服务

148+阅读 · 2019年12月28日

【NeurIPS2019教程】深度神经网络的高效处理:从算法到硬件架构

【NeurIPS2019教程】深度神经网络的高效处理:从算法到硬件架构

专知会员服务

61+阅读 · 2019年12月9日

【会议推荐】CV101大会：AI+ 大数据时代的特征比对，张广立，英特尔物联网事业部中国区软件优化开发经理。（附PPT）

【会议推荐】CV101大会：AI+ 大数据时代的特征比对，张广立，英特尔物联网事业部中国区软件优化开发经理。（附PPT）

专知会员服务

12+阅读 · 2019年11月19日

深度神经网络模型压缩与加速综述

深度神经网络模型压缩与加速综述

专知会员服务

130+阅读 · 2019年10月12日

热门VIP内容

开通专知VIP会员享更多权益服务

《俄乌战争中的无人系统：新的战争方式与新兴趋势——来自前线的印象》报告

《海上自主水面船舶远程操作中心：安全可持续运行的多维度分析》

多模态大语言模型下游调优中“保持自我”的重要性

隐身自主无人水下航行器技术如何变革水下作战并重塑海军竞争

相关资讯

硬件加速神经网络综述

硬件加速神经网络综述

计算机研究与发展

26+阅读 · 2019年2月1日

直白介绍卷积神经网络（CNN）

直白介绍卷积神经网络（CNN）

Python开发者

25+阅读 · 2018年4月8日

商汤联合提出基于FPGA的快速Winograd算法：实现FPGA之上最优的CNN表现与能耗

商汤联合提出基于FPGA的快速Winograd算法：实现FPGA之上最优的CNN表现与能耗

商汤科技

3+阅读 · 2018年2月6日

干货 | 卷积神经网络入门这一篇就够了

干货 | 卷积神经网络入门这一篇就够了

数盟

6+阅读 · 2018年1月18日

深度学习之CNN简介

深度学习之CNN简介

Python技术博文

20+阅读 · 2018年1月10日

【CNN】一文读懂卷积神经网络CNN

【CNN】一文读懂卷积神经网络CNN

产业智能官

18+阅读 · 2018年1月2日

干货 | 深度学习之卷积神经网络（CNN）的前向传播算法详解

干货 | 深度学习之卷积神经网络（CNN）的前向传播算法详解

机器学习算法与Python学习

9+阅读 · 2017年11月17日

CNN模型压缩与加速算法综述

CNN模型压缩与加速算法综述

微信AI

6+阅读 · 2017年10月11日

CNN 模型压缩与加速算法综述

CNN 模型压缩与加速算法综述

机器学习研究会

16+阅读 · 2017年8月25日

语音识别之--CNN在语音识别中的应用

语音识别之--CNN在语音识别中的应用

微信AI

9+阅读 · 2017年8月16日

相关论文

Learning Dynamic Routing for Semantic Segmentation

Learning Dynamic Routing for Semantic Segmentation

Arxiv

8+阅读 · 2020年3月23日

Interpretable CNNs for Object Classification

Interpretable CNNs for Object Classification

Arxiv

20+阅读 · 2020年3月12日

A Survey of the Recent Architectures of Deep Convolutional Neural Networks

A Survey of the Recent Architectures of Deep Convolutional Neural Networks

Arxiv

39+阅读 · 2019年1月17日

RAM: Residual Attention Module for Single Image Super-Resolution

RAM: Residual Attention Module for Single Image Super-Resolution

Arxiv

9+阅读 · 2018年11月29日

ShuffleNet V2: Practical Guidelines for Efficient CNN Architecture Design

ShuffleNet V2: Practical Guidelines for Efficient CNN Architecture Design

Arxiv

4+阅读 · 2018年7月30日

Fast Feature Extraction with CNNs with Pooling Layers

Arxiv

5+阅读 · 2018年5月8日

Interpretable Convolutional Neural Networks

Arxiv

22+阅读 · 2018年2月14日

Arxiv

8+阅读 · 2018年1月25日

Learning Tree-based Deep Model for Recommender Systems

Arxiv

7+阅读 · 2018年1月8日

Caffeinated FPGAs: FPGA Framework For Convolutional Neural Networks

Arxiv

10+阅读 · 2016年9月30日

大家都在搜

蓝牙安全攻防

大型语言模型

朱克爱德华兹家族

滴滴司机调度系统实践

微信扫码咨询专知VIP会员