The acceleration of deep-learning kernels in hardware relies on matrix multiplications that are executed efficiently on Systolic Arrays (SA). To effectively trade off deep-learning training/inference quality with hardware cost, SA accelerators employ reduced-precision Floating-Point (FP) arithmetic. In this work, we demonstrate the need for new pipeline organizations to reduce latency and improve energy efficiency of reduced-precision FP operators for the chained multiply-add operation imposed by the structure of the SA. The proposed skewed pipeline design reorganizes the pipelined operation of the FP multiply-add units to enable new forwarding paths for the exponent logic, which allow for parallel execution of the pipeline stages of consecutive PEs. As a result, the latency of the matrix multiplication operation within the SA is significantly reduced with minimal hardware cost, thereby yielding an energy reduction of 8% and 11% for the examined state-of-the-art CNNs.


翻译:在硬件加速深度学习内核中,矩阵乘法可以在Systolic阵列(SA)上执行,从而实现高效率。为了有效地在深度学习训练/推断质量与硬件成本之间进行折衷,SA加速器采用降精度的浮点算术。在本文中,我们展示了需要新的管道组织来减少降精度浮点运算操作的延迟和提高SA运算符的能效。所提出的倾斜流水线设计重新组织了浮点乘加单元的流水线操作,使指数逻辑的新转发路径能够并行执行连续PE的流水线阶段。其结果,SA中的矩阵乘法操作的延迟显著降低,而硬件成本最小,从而为检查的最先进的CNN提供了8%和11%的能源减少。

0
下载
关闭预览

相关内容

【2022新书】高效深度学习,Efficient Deep Learning Book
专知会员服务
126+阅读 · 2022年4月21日
专知会员服务
45+阅读 · 2020年12月18日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员