用 Intel MKL-DNN 加速 CPU 上的深度学习

2018 年 4 月 11 日 ApacheMXNet

Intel最近发布了开源的深度学习软件包 MKL-DNN，来替换之前的 MKLML。MKL-DNN 专门优化了一系列深度学习里的操作符。现在 Apache MXNet 集成了 MKL-DNN 来加速 CPU 上的深度学习。这次 MXNet 团队和 Intel 团队通过更紧密的合作，不仅提高 MXNet 在 CPU 上的性能，同时也希望让系统比之前使用 MKLML 更加稳定。鉴于现在 inference 主要还是依赖 CPU，希望这次的优化能给需要 inference 的朋友带来更多的帮助。

MKL-DNN 优化的操作符多用于 CNN 模型，其中包括 Convolution, Inner Product, Pooling, Batch Normalization, Activation。Intel 团队在不久之后会加入 RNN cell 和 LSTM cell 来提升 RNN 模型在 CPU 上的性能。为了得到更好的性能，MKL-DNN 使用了定制的数据格式，这也使得与 MXNet 的集成变得复杂，因为 MXNet 里自带的操作符不能够理解 MKL-DNN 的定制的数据格式。为了不修改 MXNet 里其他的操作符，MXNet 的执行引擎需要能够自动的转变数组里的格式，同时为了得到最好的性能，MXNet 需要在各种操作符混用的情况下尽量减少格式的转换。

现在我将手把手展示如何在 MXNet 里使用 MKL-DNN 来提升性能。推荐的安装方式是直接安装事先编译好的带 MKL-DNN 的 MXNet。

pip install —-pre mxnet-mkl

注意一点是如果之前安装了其他版本，最好先卸载，例如 pip uninstall mxnet，或者使用虚拟环境安装新版本。

当然用户也可以自己手动编译 MXNet。编译带 MKL-DNN 的 MXNet，用户需要用安装教程里的命令来安装 MXNet 需要的软件包。MKL-DNN 编译依赖 cmake，所以用户要额外安装 cmake。编译 MXNet 的时候只需要加上 USE_MKLDNN=1。

sudo apt-get install -y cmake
make USE_BLAS=openblas USE_MKLDNN=1

安装好带 MKL-DNN 的 MXNet 之后，我们就可以运行 MXNet 上的模型了。因为 MXNet 使用 MKL-DNN 来加速原有的操作符，所以用户并不需要修改任何代码来提升性能。下面我们用 MXNet 自带的 benchmark 来展示使用 MKL-DNN 加速的 MXNet 在 CPU 上的性能。

python example/image-classification/benchmark_score.py

我们这里使用亚马逊云上一台 C5.18xlarge 机器来比较 MXNet 各个版本的性能。

MXNet-OpenBLAS: 这是MXNet release 1.1。这个版本只使用了 OpenBLAS 和 OpenMP 来提速。
MXNet-MKLML：这是MXNet-MKL release 1.1。这个版本使用了 MKLML 来提速。编译这个版本时使用了USE_MKL2017 = 1和USE_MKL2017_EXPERIMENTAL = 1 。
MXNet-MKLDNN：这个版本用 MKL-DNN 来加速，就是前面介绍的的使用 --pre 安装的版本。

为了在多核多处理器机器上有更好的性能，我们需要控制线程的数量，并且绑定线程到 CPU 核上。在Linux下，我们可以用下面的环境变量来设置线程。

export KMP_AFFINITY=granularity=fine,compact,1,0export vCPUs=`cat /proc/cpuinfo | grep processor | wc -l`export OMP_NUM_THREADS=$((vCPUs / 2))

这里vCPUs是亚马逊云上的机器虚拟 CPU 的数量。在 C5.18xlarge 上vCPUs是72。

下面的表格显示了各个版本的 MXNet 在不同的模型上使用不同的批量大小时的性能。这里性能的单位是每秒处理的图片的数量。MXNet-MKLDNN 的性能要比 MXNet 默认的实现快出几十倍，在有些情况下甚至比 MXNet-MKLML 要快出不少。

下一步

扫描或者长按下面QR码来关注我们：

公众号里回复下面关键词获取信息：

课程 -- 《动手学深度学习》课程视频汇总
论坛 -- 深度学习论坛地址
资源 -- 所有中文资源汇总

请点击下面链接来参与公开讨论：

登录查看更多

相关内容

MXNet

关注 17

mxnet

【实用书】给开发者的深度学习商业应用指南，348页pdf

专知会员服务

56+阅读 · 2020年7月4日

【CMU】深度学习模型中集成优化、约束和控制，33页ppt

专知会员服务

46+阅读 · 2020年5月23日

一份循环神经网络RNNs简明教程，37页ppt

专知会员服务

173+阅读 · 2020年5月6日

TensorFlow开发者峰会2020 Keynote，TF2及其庞大的科研、工业生态圈

专知会员服务

26+阅读 · 2020年3月20日

深度神经网络实时物联网图像处理，241页pdf

专知会员服务

78+阅读 · 2020年3月15日

【2020新书】企业级机器学习: Spark XGBoost LightGBM, NLP, Keras深度学习, 367页pdf

专知会员服务

115+阅读 · 2020年2月24日

MIT公开课-Vivienne Sze教授《深度学习硬件加速器》，86页ppt

专知会员服务

68+阅读 · 2020年2月18日

TensorFlow Lite指南实战《TensorFlow Lite A primer》，附48页PPT

专知会员服务

70+阅读 · 2020年1月17日

【新书】傻瓜式入门深度学习，371页pdf

专知会员服务

192+阅读 · 2019年12月28日

深度神经网络模型压缩与加速综述

专知会员服务

129+阅读 · 2019年10月12日

TensorFlow官方发布剪枝优化工具：参数减少80%，精度几乎不变

量子位

11+阅读 · 2019年5月15日

Github项目推荐 | NeuronBlocks：微软发布的模块化深度学习NLP工具集

AI科技评论

3+阅读 · 2019年4月26日

安装TensorFlow 2.0 preview进行深度学习（附Jupyter Notebook）

专知

10+阅读 · 2019年1月11日

Github 项目推荐 | Nvidia 用于数据增强和 JPEG 图像解码的 GPU 加速库 DALI

AI研习社

11+阅读 · 2018年6月27日

Github 项目推荐 | 微软开源 MMdnn，模型可在多框架间转换

AI研习社

3+阅读 · 2018年2月28日

手把手教你如何部署深度学习模型

全球人工智能

17+阅读 · 2018年2月5日

能在不同的深度学习框架之间转换模型？微软的MMdnn做到了

AI100

4+阅读 · 2018年1月5日

【强烈推荐】浅谈将Pytorch模型从CPU转换成GPU

机器学习研究会

7+阅读 · 2017年12月24日

前端高性能计算（4）：GPU加速计算

前端大全

7+阅读 · 2017年10月26日

【10大深度学习框架实验对比】Caffe2最优，TensorFlow排第6

新智元

6+阅读 · 2017年9月9日

Interpretable CNNs for Object Classification

Arxiv

20+阅读 · 2020年3月12日

Rethinking ImageNet Pre-training

Arxiv

8+阅读 · 2018年11月21日

GPU-Accelerated Robotic Simulation for Distributed Reinforcement Learning

Arxiv

4+阅读 · 2018年10月24日

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

Arxiv

15+阅读 · 2018年10月11日

End-to-End Dense Video Captioning with Masked Transformer

Arxiv

14+阅读 · 2018年4月3日

CuLDA_CGS: Solving Large-scale LDA Problems on GPUs

Arxiv

3+阅读 · 2018年3月13日

Dual Recurrent Attention Units for Visual Question Answering

Arxiv

7+阅读 · 2018年2月1日

PointCNN

Arxiv

8+阅读 · 2018年1月25日

SSD: Single Shot MultiBox Detector

Arxiv

5+阅读 · 2016年12月29日

Caffeinated FPGAs: FPGA Framework For Convolutional Neural Networks

Arxiv

10+阅读 · 2016年9月30日

VIP会员