Creating high performance implementations of deep learning primitives on CPUs is a challenging task. Multiple considerations including multi-level cache hierarchy, and wide SIMD units of CPU platforms influence the choice of program transformations to apply for performance optimization. In this paper, we present machine learning powered compiler techniques to optimize loop nests. We take a two-pronged approach to code optimization: We first apply high level optimizations to optimize the code to take optimal advantage of the cache memories. Then, we perform low level, target-specific optimizations to effectively vectorize the code to run well on the SIMD units of the machine. For high level optimizations, we use polyhedral compilation techniques and deep learning approaches. For low level optimization, we use a target specific code generator that generates code using vector intrinsics and Reinforcement Learning (RL) techniques to find the optimal parameters for the code generator. We perform experimental evaluation of the developed techniques on various matrix multiplications that occur in popular deep learning workloads. The experimental results show that the compiler techniques presented in the paper achieve 7.6X and 8.2X speed-ups over a baseline for sequential and parallel runs respectively.


翻译:创建在CPU上进行深层原始学习的高性能执行是一项具有挑战性的任务。 多重考虑包括多级缓存等级和CPU平台的大型SIMD单位,它们影响选择程序转换以应用绩效优化。 在本文中,我们展示机器学习动力编译器技术以优化环状巢。 我们用双管齐下的方法优化代码: 我们首先应用高水平优化代码以优化缓存记忆的最佳利用。 然后, 我们进行低水平、 特定目标优化, 有效地将代码在机器的SIMD单位上运行良好。 对于高水平优化, 我们使用多面编译技术和深层学习方法。 对于低水平优化, 我们使用一个特定的目标代码生成器, 生成代码, 使用矢量固有和强化学习(RL) 技术为代码生成最佳参数。 我们对在流行深层学习工作量中出现的各种矩阵乘法的开发技术进行了实验性评估。 实验结果显示, 纸张中展示的编译器技术在连续运行和平行运行的基线上分别实现了7.6X和8.2X速度。

0
下载
关闭预览

相关内容

【最受欢迎的概率书】《概率论:理论与实例》,490页pdf
专知会员服务
162+阅读 · 2020年11月13日
迁移学习简明教程,11页ppt
专知会员服务
107+阅读 · 2020年8月4日
专知会员服务
159+阅读 · 2020年1月16日
开源书:PyTorch深度学习起步
专知会员服务
50+阅读 · 2019年10月11日
【新书】Python编程基础,669页pdf
专知会员服务
193+阅读 · 2019年10月10日
人工智能 | UAI 2019等国际会议信息4条
Call4Papers
6+阅读 · 2019年1月14日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
Ray RLlib: Scalable 降龙十八掌
CreateAMind
9+阅读 · 2018年12月28日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
AI/ML/DNN硬件加速设计怎么入门?
StarryHeavensAbove
10+阅读 · 2018年12月4日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
【推荐】深度学习情感分析综述
机器学习研究会
58+阅读 · 2018年1月26日
【推荐】RNN最新研究进展综述
机器学习研究会
25+阅读 · 2018年1月6日
分布式TensorFlow入门指南
机器学习研究会
4+阅读 · 2017年11月28日
【推荐】自然语言处理(NLP)指南
机器学习研究会
35+阅读 · 2017年11月17日
Arxiv
15+阅读 · 2020年2月6日
Arxiv
3+阅读 · 2018年10月5日
Arxiv
6+阅读 · 2018年4月24日
VIP会员
相关VIP内容
相关资讯
人工智能 | UAI 2019等国际会议信息4条
Call4Papers
6+阅读 · 2019年1月14日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
Ray RLlib: Scalable 降龙十八掌
CreateAMind
9+阅读 · 2018年12月28日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
AI/ML/DNN硬件加速设计怎么入门?
StarryHeavensAbove
10+阅读 · 2018年12月4日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
【推荐】深度学习情感分析综述
机器学习研究会
58+阅读 · 2018年1月26日
【推荐】RNN最新研究进展综述
机器学习研究会
25+阅读 · 2018年1月6日
分布式TensorFlow入门指南
机器学习研究会
4+阅读 · 2017年11月28日
【推荐】自然语言处理(NLP)指南
机器学习研究会
35+阅读 · 2017年11月17日
Top
微信扫码咨询专知VIP会员