Multi-Chip-Modules (MCMs) reduce the design and fabrication cost of machine learning (ML) accelerators while delivering performance and energy efficiency on par with a monolithic large chip. However, ML compilers targeting MCMs need to solve complex optimization problems optimally and efficiently to achieve this high performance. One such problem is the multi-chip partitioning problem where compilers determine the optimal partitioning and placement of operations in tensor computation graphs on chiplets in MCMs. Partitioning ML graphs for MCMs is particularly hard as the search space grows exponentially with the number of chiplets available and the number of nodes in the neural network. Furthermore, the constraints imposed by the underlying hardware produce a search space where valid solutions are extremely sparse. In this paper, we present a strategy using a deep reinforcement learning (RL) framework to emit a possibly invalid candidate partition that is then corrected by a constraint solver. Using the constraint solver ensures that RL encounters valid solutions in the sparse space frequently enough to converge with fewer samples as compared to non-learned strategies. The architectural choices we make for the policy network allow us to generalize across different ML graphs. Our evaluation of a production-scale model, BERT, on real hardware reveals that the partitioning generated using RL policy achieves 6.11% and 5.85% higher throughput than random search and simulated annealing. In addition, fine-tuning the pre-trained RL policy reduces the search time from 3 hours to only 9 minutes, while achieving the same throughput as training RL policy from scratch.


翻译:多芯- Modules (MCMM ) 降低机器学习( ML) 加速器的设计和制造成本,同时以单一的大型芯片来提供性能和节能。 然而,针对 MCM 的 ML 编译者需要以最佳和高效率的方式解决复杂的优化问题,才能取得如此高的性能。 其中一个问题就是多芯分割问题, 即编译者在MCM 的芯片上决定操作的最佳分隔和定位, 将机器学习( ML) 加速器的设计和制造成本降低。 当搜索空间随着可用芯片的数量和神经网络节点的数量的增多而急剧增长时, MCM 的 ML 调色调也特别困难。 此外, 基础硬件带来的限制产生了一个搜索空间, 有效的解决方案非常少。 在本文件中, 我们用一个深度强化学习( RL) 框架来释放一个可能无效的候选人配电配, 然后通过一个制约解答器来校正。 使用制约解算器确保 RL 在稀薄空间中遇到有效的解决方案, 与不易的样本相匹配, 与不及非学习的战略相比, 。 5- 我们的 RL 的建筑选择的 RL 将政策网络上, 我们的打印政策网络的模型将一个总的模型显示的 RL 的 RL 的模型显示的模型到整个的 RP 。

0
下载
关闭预览

相关内容

【干货书】真实机器学习,264页pdf,Real-World Machine Learning
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
【CMU】机器学习导论课程(Introduction to Machine Learning)
专知会员服务
59+阅读 · 2019年8月26日
Multi-Task Learning的几篇综述文章
深度学习自然语言处理
15+阅读 · 2020年6月15日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
[DLdigest-8] 每日一道算法
深度学习每日摘要
4+阅读 · 2017年11月2日
Arxiv
0+阅读 · 2022年2月8日
Arxiv
0+阅读 · 2022年2月4日
Arxiv
10+阅读 · 2021年11月3日
HAQ: Hardware-Aware Automated Quantization
Arxiv
6+阅读 · 2018年11月21日
Arxiv
6+阅读 · 2018年10月3日
VIP会员
相关VIP内容
【干货书】真实机器学习,264页pdf,Real-World Machine Learning
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
【CMU】机器学习导论课程(Introduction to Machine Learning)
专知会员服务
59+阅读 · 2019年8月26日
相关资讯
Multi-Task Learning的几篇综述文章
深度学习自然语言处理
15+阅读 · 2020年6月15日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
[DLdigest-8] 每日一道算法
深度学习每日摘要
4+阅读 · 2017年11月2日
Top
微信扫码咨询专知VIP会员