The last few years have seen gigantic leaps in algorithms and systems to support efficient deep learning inference. Pruning and quantization algorithms can now consistently compress neural networks by an order of magnitude. For a compressed neural network, a multitude of inference frameworks have been designed to maximize the performance of the target hardware. While we find mature support for quantized neural networks in production frameworks such as OpenVINO and MNN, support for pruned sparse neural networks is still lacking. To tackle this challenge, we present SparseDNN, a sparse deep learning inference engine targeting CPUs. We present both kernel-level optimizations with a sparse code generator to accelerate sparse operators and novel network-level optimizations catering to sparse networks. We show that our sparse code generator can achieve significant speedups over state-of-the-art sparse and dense libraries. On end-to-end benchmarks such as Huggingface pruneBERT, SparseDNN achieves up to 5x throughput improvement over dense inference with state-of-the-art OpenVINO.


翻译:过去几年中,在支持高效深层学习推断的算法和系统中出现了巨大的飞跃。 普鲁宁和量化算法现在可以不断地以一个数量级压缩神经网络。 对于压缩神经网络来说,已经设计了多种推论框架来最大限度地提高目标硬件的性能。 虽然我们发现在OpenVINO和MNN等生产框架中对量化神经网络的成熟支持,但仍然缺乏对经处理的稀薄神经网络的支持。为了应对这一挑战,我们提出了SprassDNN,这是一个以CPU为目标的稀有深层次的深层推论引擎。我们提出了内核级优化,配有稀薄的代码生成器,以加速稀薄的操作器和新颖的网络级优化,供稀薄的网络使用。我们表明,我们稀薄的代码生成器可以大大加速最先进的分散和密集的图书馆。在Huggingface PruneBERT等终端基准上,SprassenDNNN能够达到5x的超稠密度改善。

0
下载
关闭预览

相关内容

【EMNLP2020】序列知识蒸馏进展,44页ppt
专知会员服务
39+阅读 · 2020年11月21日
专知会员服务
45+阅读 · 2020年10月31日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
158+阅读 · 2019年10月12日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
41+阅读 · 2019年10月9日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
AI/ML/DNN硬件加速设计怎么入门?
StarryHeavensAbove
11+阅读 · 2018年12月4日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Faster R-CNN
数据挖掘入门与实战
4+阅读 · 2018年4月20日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【干货】Deep Learning with Python 终于等到你!
量化投资与机器学习
11+阅读 · 2017年12月5日
分布式TensorFlow入门指南
机器学习研究会
4+阅读 · 2017年11月28日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
Arxiv
12+阅读 · 2019年3月14日
Deep Learning
Arxiv
6+阅读 · 2018年8月3日
Arxiv
3+阅读 · 2018年3月13日
VIP会员
相关资讯
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
AI/ML/DNN硬件加速设计怎么入门?
StarryHeavensAbove
11+阅读 · 2018年12月4日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Faster R-CNN
数据挖掘入门与实战
4+阅读 · 2018年4月20日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【干货】Deep Learning with Python 终于等到你!
量化投资与机器学习
11+阅读 · 2017年12月5日
分布式TensorFlow入门指南
机器学习研究会
4+阅读 · 2017年11月28日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
Top
微信扫码咨询专知VIP会员