As neural network model sizes have dramatically increased, so has the interest in various techniques to reduce their parameter counts and accelerate their execution. An active area of research in this field is sparsity - encouraging zero values in parameters that can then be discarded from storage or computations. While most research focuses on high levels of sparsity, there are challenges in universally maintaining model accuracy as well as achieving significant speedups over modern matrix-math hardware. To make sparsity adoption practical, the NVIDIA Ampere GPU architecture introduces sparsity support in its matrix-math units, Tensor Cores. We present the design and behavior of Sparse Tensor Cores, which exploit a 2:4 (50%) sparsity pattern that leads to twice the math throughput of dense matrix units. We also describe a simple workflow for training networks that both satisfy 2:4 sparsity pattern requirements and maintain accuracy, verifying it on a wide range of common tasks and model architectures. This workflow makes it easy to prepare accurate models for efficient deployment on Sparse Tensor Cores.


翻译:随着神经网络模型规模的急剧增长,对减少参数计数和加速执行的多种技术的兴趣也大增。这一领域的一个积极研究领域是宽度——鼓励从储存或计算中可以丢弃的参数的零值。虽然大多数研究侧重于高度的宽度,但在普遍保持模型准确性以及在现代矩阵-数学硬件上实现显著加速方面存在着挑战。为了使宽度的采用切实可行,NVIDIA A Ampere GPU 结构在其矩阵-数学单元Tensor核心中引入了宽度支持。我们介绍了Sprass Tensor Cores的设计与行为,它利用了2:4(50%)的宽度模式,使密度矩阵单元的数学吞吐量翻倍。我们还描述了一个简单的培训网络工作流程,既满足2:4的宽度模式要求,又保持准确性,在广泛的共同任务和模型结构上加以核实。这一工作流程使得为在斯帕斯卡特核心上高效部署而准备精确模型变得容易。

0
下载
关闭预览

相关内容

【Manning新书】现代Java实战,592页pdf
专知会员服务
99+阅读 · 2020年5月22日
深度学习搜索,Exploring Deep Learning for Search
专知会员服务
58+阅读 · 2020年5月9日
斯坦福2020硬课《分布式算法与优化》
专知会员服务
119+阅读 · 2020年5月6日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
152+阅读 · 2019年10月12日
计算机 | 国际会议信息5条
Call4Papers
3+阅读 · 2019年7月3日
CCF推荐 | 国际会议信息10条
Call4Papers
8+阅读 · 2019年5月27日
Deep Compression/Acceleration:模型压缩加速论文汇总
极市平台
14+阅读 · 2019年5月15日
计算机 | EMNLP 2019等国际会议信息6条
Call4Papers
18+阅读 · 2019年4月26日
人工智能 | SCI期刊专刊信息3条
Call4Papers
5+阅读 · 2019年1月10日
计算机 | CCF推荐会议信息10条
Call4Papers
5+阅读 · 2018年10月18日
【NIPS2018】接收论文列表
专知
5+阅读 · 2018年9月10日
人工智能 | 国际会议截稿信息9条
Call4Papers
4+阅读 · 2018年3月13日
计算机类 | 期刊专刊截稿信息9条
Call4Papers
4+阅读 · 2018年1月26日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
Arxiv
0+阅读 · 2021年6月7日
Accelerated Methods for Deep Reinforcement Learning
Arxiv
6+阅读 · 2019年1月10日
Arxiv
8+阅读 · 2018年3月20日
VIP会员
相关资讯
计算机 | 国际会议信息5条
Call4Papers
3+阅读 · 2019年7月3日
CCF推荐 | 国际会议信息10条
Call4Papers
8+阅读 · 2019年5月27日
Deep Compression/Acceleration:模型压缩加速论文汇总
极市平台
14+阅读 · 2019年5月15日
计算机 | EMNLP 2019等国际会议信息6条
Call4Papers
18+阅读 · 2019年4月26日
人工智能 | SCI期刊专刊信息3条
Call4Papers
5+阅读 · 2019年1月10日
计算机 | CCF推荐会议信息10条
Call4Papers
5+阅读 · 2018年10月18日
【NIPS2018】接收论文列表
专知
5+阅读 · 2018年9月10日
人工智能 | 国际会议截稿信息9条
Call4Papers
4+阅读 · 2018年3月13日
计算机类 | 期刊专刊截稿信息9条
Call4Papers
4+阅读 · 2018年1月26日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
Top
微信扫码咨询专知VIP会员