张量切片和优化，用于多核神经处理单元 (Tensor Slicing and Optimization for Multicore NPUs) - 专知论文

会员服务 ·

0

NPU · 内存 · 并行 · CNN · 单元 ·

2023 年 4 月 6 日

Tensor Slicing and Optimization for Multicore NPUs

翻译：张量切片和优化，用于多核神经处理单元

Rafael Sousa,Marcio Pereira,Yongin Kwon,Taeho Kim,Namsoon Jung,Chang Soo Kim,Michael Frank,Guido Araujo

Although code generation for Convolution Neural Network (CNN) models has been extensively studied, performing efficient data slicing and parallelization for highly-constrai\-ned Multicore Neural Processor Units (NPUs) is still a challenging problem. Given the size of convolutions' input/output tensors and the small footprint of NPU on-chip memories, minimizing memory transactions while maximizing parallelism and MAC utilization are central to any effective solution. This paper proposes a TensorFlow XLA/LLVM compiler optimization pass for Multicore NPUs, called Tensor Slicing Optimization (TSO), which: (a) maximizes convolution parallelism and memory usage across NPU cores; and (b) reduces data transfers between host and NPU on-chip memories by using DRAM memory burst time estimates to guide tensor slicing. To evaluate the proposed approach, a set of experiments was performed using the NeuroMorphic Processor (NMP), a multicore NPU containing 32 RISC-V cores extended with novel CNN instructions. Experimental results show that TSO is capable of identifying the best tensor slicing that minimizes execution time for a set of CNN models. Speed-ups of up to 21.7\% result when comparing the TSO burst-based technique to a no-burst data slicing approach. To validate the generality of the TSO approach, the algorithm was also ported to the Glow Machine Learning framework. The performance of the models were measured on both Glow and TensorFlow XLA/LLVM compilers, revealing similar results.

翻译：尽管卷积神经网络（CNN）模型的代码生成已经得到了广泛的研究，但是对于高度约束的多核神经处理单元（NPUs）进行有效的数据切片和并行化仍然是一个具有挑战性的问题。由于卷积的输入/输出张量大小和NPU芯片上内存的小占用，最小化内存事务并最大化并行性和MAC利用是任何有效解决方案的核心。本文提出了一种基于TensorFlow XLA/LLVM编译器优化的多核NPUs的Tensor Slicing Optimization（TSO），它：（a）最大化卷积并行性和NPU核之间的内存使用；以及（b）使用DRAM内存突发时间估计指导张量切片，从而减少主机和NPU芯片内存之间的数据传输。为评估所提出的方法，使用神经形态处理器（NMP）进行了一系列实验，其中包括32个增强型带有新型CNN指令的RISC-V核的多核NPU。实验结果表明，TSO能够识别对于一组CNN模型最小化执行时间的最佳张量切片。当将TSO基于突发的技术与无突发数据切片方法进行比较时，可以获得高达21.7％的加速。为了验证TSO方法的通用性，该算法还在Glow机器学习框架上进行了移植。在Glow和TensorFlow XLA/LLVM编译器上测量了模型的性能，结果显示了相似的结果。

0

相关内容

NPU

【干货书】机器学习设计模式，408页pdf，Machine Learning Design Patterns

【干货书】机器学习设计模式，408页pdf，Machine Learning Design Patterns

专知会员服务

138+阅读 · 2022年2月6日

【干货书】面向计算科学和工程的Python导论，167页pdf

【干货书】面向计算科学和工程的Python导论，167页pdf

专知会员服务

42+阅读 · 2021年4月7日

【ACML2020】张量网络机器学习:最近的进展和前沿，109页ppt

【ACML2020】张量网络机器学习:最近的进展和前沿，109页ppt

专知会员服务

55+阅读 · 2020年12月15日

【DeepMind深度学习课程】序列循环神经网络，141页ppt，Sequences and Recurrent Network

【DeepMind深度学习课程】序列循环神经网络，141页ppt，Sequences and Recurrent Network

专知会员服务

86+阅读 · 2020年6月23日

【Google 大脑】使用上千个优化任务学习超参数搜索策略，Using a thousand optimization tasks to learn hyperparameter search strategies

【Google 大脑】使用上千个优化任务学习超参数搜索策略，Using a thousand optimization tasks to learn hyperparameter search strategies

专知会员服务

18+阅读 · 2020年3月14日

【新书】数字图像(影像)处理手第二版，2176pdf，Mathematical Methods in Imaging

【新书】数字图像(影像)处理手第二版，2176pdf，Mathematical Methods in Imaging

专知会员服务

93+阅读 · 2020年2月12日

【深度学习架构、模型和技巧集合(TensorFlow/PyTorch)】’Deep Learning Models - A collection of various deep learning architectures, models, and tips'

【深度学习架构、模型和技巧集合(TensorFlow/PyTorch)】’Deep Learning Models - A collection of various deep learning architectures, models, and tips'

专知会员服务

58+阅读 · 2020年1月25日

【深度学习表格检测、信息提取和结构化】《Table Detection, Information Extraction and Structuring using Deep Learning》by Vihar Kurama

专知会员服务

38+阅读 · 2020年1月23日

【CVPR 2019 | tutorial】OpenCV 4.x和更多用于CV研发的新工具：OpenCV 4.x and more new tools for CV R&D

【CVPR 2019 | tutorial】OpenCV 4.x和更多用于CV研发的新工具：OpenCV 4.x and more new tools for CV R&D

专知会员服务

12+阅读 · 2019年11月28日

【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用

【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用

专知会员服务

41+阅读 · 2019年10月9日

不再让CPU和总线拖后腿：Exafunction让GPU跑的更快！

不再让CPU和总线拖后腿：Exafunction让GPU跑的更快！

机器之心

0+阅读 · 2022年10月7日

存储和操作n维数据的难题，谷歌用一个开源软件库解决了

存储和操作n维数据的难题，谷歌用一个开源软件库解决了

机器之心

1+阅读 · 2022年9月23日

神经引擎这回行了吗？iPhone 14 Core ML性能测评已出

神经引擎这回行了吗？iPhone 14 Core ML性能测评已出

机器之心

0+阅读 · 2022年9月17日

动手实现推荐系统评价指标

动手实现推荐系统评价指标

机器学习与推荐算法

1+阅读 · 2022年6月1日

【泡泡一分钟】FarSight：从户外图像中实现远距离深度估计

【泡泡一分钟】FarSight：从户外图像中实现远距离深度估计

泡泡机器人SLAM

11+阅读 · 2019年5月22日

Transferring Knowledge across Learning Processes

Transferring Knowledge across Learning Processes

CreateAMind

29+阅读 · 2019年5月18日

基于PyTorch/TorchText的自然语言处理库

基于PyTorch/TorchText的自然语言处理库

专知

28+阅读 · 2019年4月22日

SIGIR2019 接收论文列表

SIGIR2019 接收论文列表

专知

18+阅读 · 2019年4月20日

【泡泡点云时空】SpiderCNN：利用参数化卷积滤波进行点集深度学习（ECCV2018-13）

【泡泡点云时空】SpiderCNN：利用参数化卷积滤波进行点集深度学习（ECCV2018-13）

泡泡机器人SLAM

10+阅读 · 2018年11月8日

【泡泡点云时空】RSNet：用于3D点云分割的递归切片网络（CVPR2018-14)

【泡泡点云时空】RSNet：用于3D点云分割的递归切片网络（CVPR2018-14)

泡泡机器人SLAM

12+阅读 · 2018年9月18日

相变材料应变工程与锗多栅晶体管的优化集成方案

国家自然科学基金

0+阅读 · 2015年12月31日

利用复杂网络理論优化车载通信网络

国家自然科学基金

0+阅读 · 2014年12月31日

快速卷积型张量分解理论研究及在fMRI处理中的应用

国家自然科学基金

0+阅读 · 2013年12月31日

非线性Cahn-Hilliard型方程自适应高阶稳定数值方法分析

国家自然科学基金

0+阅读 · 2013年12月31日

面向高速并行向量-矩阵乘法运算的光学数字信号处理关键技术研究

国家自然科学基金

0+阅读 · 2012年12月31日

缺失数据下基于经验似然的稳健推断函数

国家自然科学基金

1+阅读 · 2012年12月31日

用于EPICS输入输出控制器的冗余技术研究

国家自然科学基金

0+阅读 · 2012年12月31日

宽带模拟自适应滤波器的研究

国家自然科学基金

0+阅读 · 2011年12月31日

基于list-mode数据的快速SART真3D PET断层重建算法的研究

国家自然科学基金

0+阅读 · 2011年12月31日

复杂医学体数据快速分割的内分泌激素调节算子优化机理

国家自然科学基金

0+阅读 · 2009年12月31日

Dynamic Context Pruning for Efficient and Interpretable Autoregressive Transformers

Arxiv

0+阅读 · 2023年5月25日

DynStatF: An Efficient Feature Fusion Strategy for LiDAR 3D Object Detection

Arxiv

0+阅读 · 2023年5月24日

Transformer-Based Learned Optimization

Arxiv

0+阅读 · 2023年5月24日

Deceptive-NeRF: Enhancing NeRF Reconstruction using Pseudo-Observations from Diffusion Models

Arxiv

0+阅读 · 2023年5月24日

Dual-Side Feature Fusion 3D Pose Transfer

Arxiv

0+阅读 · 2023年5月24日

A Classical Architecture For Digital Quantum Computers

Arxiv

0+阅读 · 2023年5月23日

Sparse4D v2: Recurrent Temporal Fusion with Sparse Model

Arxiv

0+阅读 · 2023年5月23日

Finding tensor decompositions with sparse optimization

Arxiv

0+阅读 · 2023年5月23日

A Physics-Based Hybrid Dynamical Model of Hysteresis in Polycrystalline Shape Memory Alloy Wire Transducers

Arxiv

0+阅读 · 2023年5月23日

DeepMAD: Mathematical Architecture Design for Deep Convolutional Neural Network

Arxiv

11+阅读 · 2023年3月5日

VIP会员

文章信息

相关主题

相关VIP内容

【干货书】机器学习设计模式，408页pdf，Machine Learning Design Patterns

【干货书】机器学习设计模式，408页pdf，Machine Learning Design Patterns

专知会员服务

138+阅读 · 2022年2月6日

【干货书】面向计算科学和工程的Python导论，167页pdf

【干货书】面向计算科学和工程的Python导论，167页pdf

专知会员服务

42+阅读 · 2021年4月7日

【ACML2020】张量网络机器学习:最近的进展和前沿，109页ppt

【ACML2020】张量网络机器学习:最近的进展和前沿，109页ppt

专知会员服务

55+阅读 · 2020年12月15日

【DeepMind深度学习课程】序列循环神经网络，141页ppt，Sequences and Recurrent Network

【DeepMind深度学习课程】序列循环神经网络，141页ppt，Sequences and Recurrent Network

专知会员服务

86+阅读 · 2020年6月23日

【Google 大脑】使用上千个优化任务学习超参数搜索策略，Using a thousand optimization tasks to learn hyperparameter search strategies

【Google 大脑】使用上千个优化任务学习超参数搜索策略，Using a thousand optimization tasks to learn hyperparameter search strategies

专知会员服务

18+阅读 · 2020年3月14日

【新书】数字图像(影像)处理手第二版，2176pdf，Mathematical Methods in Imaging

【新书】数字图像(影像)处理手第二版，2176pdf，Mathematical Methods in Imaging

专知会员服务

93+阅读 · 2020年2月12日

【深度学习架构、模型和技巧集合(TensorFlow/PyTorch)】’Deep Learning Models - A collection of various deep learning architectures, models, and tips'

【深度学习架构、模型和技巧集合(TensorFlow/PyTorch)】’Deep Learning Models - A collection of various deep learning architectures, models, and tips'

专知会员服务

58+阅读 · 2020年1月25日

【深度学习表格检测、信息提取和结构化】《Table Detection, Information Extraction and Structuring using Deep Learning》by Vihar Kurama

专知会员服务

38+阅读 · 2020年1月23日

【CVPR 2019 | tutorial】OpenCV 4.x和更多用于CV研发的新工具：OpenCV 4.x and more new tools for CV R&D

【CVPR 2019 | tutorial】OpenCV 4.x和更多用于CV研发的新工具：OpenCV 4.x and more new tools for CV R&D

专知会员服务

12+阅读 · 2019年11月28日

【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用

【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用

专知会员服务

41+阅读 · 2019年10月9日

热门VIP内容

开通专知VIP会员享更多权益服务

《生成式人工智能与大/小语言模型在供应链管理决策优化与可持续性提升中的作用评估》最新51页

白宫发布《赢得AI竞赛：美国人工智能行动计划》最新28页

地下战：地下空间的战略博弈

《美地下作战条令手册》228页

相关资讯

不再让CPU和总线拖后腿：Exafunction让GPU跑的更快！

不再让CPU和总线拖后腿：Exafunction让GPU跑的更快！

机器之心

0+阅读 · 2022年10月7日

存储和操作n维数据的难题，谷歌用一个开源软件库解决了

存储和操作n维数据的难题，谷歌用一个开源软件库解决了

机器之心

1+阅读 · 2022年9月23日

神经引擎这回行了吗？iPhone 14 Core ML性能测评已出

神经引擎这回行了吗？iPhone 14 Core ML性能测评已出

机器之心

0+阅读 · 2022年9月17日

动手实现推荐系统评价指标

动手实现推荐系统评价指标

机器学习与推荐算法

1+阅读 · 2022年6月1日

【泡泡一分钟】FarSight：从户外图像中实现远距离深度估计

【泡泡一分钟】FarSight：从户外图像中实现远距离深度估计

泡泡机器人SLAM

11+阅读 · 2019年5月22日

Transferring Knowledge across Learning Processes

Transferring Knowledge across Learning Processes

CreateAMind

29+阅读 · 2019年5月18日

基于PyTorch/TorchText的自然语言处理库

基于PyTorch/TorchText的自然语言处理库

专知

28+阅读 · 2019年4月22日

SIGIR2019 接收论文列表

SIGIR2019 接收论文列表

专知

18+阅读 · 2019年4月20日

【泡泡点云时空】SpiderCNN：利用参数化卷积滤波进行点集深度学习（ECCV2018-13）

【泡泡点云时空】SpiderCNN：利用参数化卷积滤波进行点集深度学习（ECCV2018-13）

泡泡机器人SLAM

10+阅读 · 2018年11月8日

【泡泡点云时空】RSNet：用于3D点云分割的递归切片网络（CVPR2018-14)

【泡泡点云时空】RSNet：用于3D点云分割的递归切片网络（CVPR2018-14)

泡泡机器人SLAM

12+阅读 · 2018年9月18日

相关论文

Dynamic Context Pruning for Efficient and Interpretable Autoregressive Transformers

Arxiv

0+阅读 · 2023年5月25日

DynStatF: An Efficient Feature Fusion Strategy for LiDAR 3D Object Detection

Arxiv

0+阅读 · 2023年5月24日

Transformer-Based Learned Optimization

Arxiv

0+阅读 · 2023年5月24日

Deceptive-NeRF: Enhancing NeRF Reconstruction using Pseudo-Observations from Diffusion Models

Arxiv

0+阅读 · 2023年5月24日

Dual-Side Feature Fusion 3D Pose Transfer

Arxiv

0+阅读 · 2023年5月24日

A Classical Architecture For Digital Quantum Computers

Arxiv

0+阅读 · 2023年5月23日

Sparse4D v2: Recurrent Temporal Fusion with Sparse Model

Arxiv

0+阅读 · 2023年5月23日

Finding tensor decompositions with sparse optimization

Arxiv

0+阅读 · 2023年5月23日

A Physics-Based Hybrid Dynamical Model of Hysteresis in Polycrystalline Shape Memory Alloy Wire Transducers

Arxiv

0+阅读 · 2023年5月23日

DeepMAD: Mathematical Architecture Design for Deep Convolutional Neural Network

Arxiv

11+阅读 · 2023年3月5日

相关基金

相变材料应变工程与锗多栅晶体管的优化集成方案

国家自然科学基金

0+阅读 · 2015年12月31日

利用复杂网络理論优化车载通信网络

国家自然科学基金

0+阅读 · 2014年12月31日

快速卷积型张量分解理论研究及在fMRI处理中的应用

国家自然科学基金

0+阅读 · 2013年12月31日

非线性Cahn-Hilliard型方程自适应高阶稳定数值方法分析

国家自然科学基金

0+阅读 · 2013年12月31日

面向高速并行向量-矩阵乘法运算的光学数字信号处理关键技术研究

国家自然科学基金

0+阅读 · 2012年12月31日

缺失数据下基于经验似然的稳健推断函数

国家自然科学基金

1+阅读 · 2012年12月31日

用于EPICS输入输出控制器的冗余技术研究

国家自然科学基金

0+阅读 · 2012年12月31日

宽带模拟自适应滤波器的研究

国家自然科学基金

0+阅读 · 2011年12月31日

基于list-mode数据的快速SART真3D PET断层重建算法的研究

国家自然科学基金

0+阅读 · 2011年12月31日

复杂医学体数据快速分割的内分泌激素调节算子优化机理

国家自然科学基金

0+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员