Most distributed-memory bulk-synchronous parallel programs in HPC assume that compute resources are available continuously and homogeneously across the allocated set of compute nodes. However, long one-off delays on individual processes can cause global disturbances, so-called idle waves, by rippling through the system. This process is mainly governed by the communication topology of the underlying parallel code. This paper makes significant contributions to the understanding of idle wave dynamics. We study the propagation mechanisms of idle waves across the ranks of MPI-parallel programs. We present a validated analytic model for their propagation velocity with respect to communication parameters and topology, with a special emphasis on sparse communication patterns. We study the interaction of idle waves with MPI collectives and show that, depending on the implementation, a collective may be transparent to the wave. Finally we analyze two mechanisms of idle wave decay: topological decay, which is rooted in differences in communication characteristics among parts of the system, and noise-induced decay, which is caused by system or application noise. We show that noise-induced decay is largely independent of noise characteristics but depends only on the overall noise power. An analytic expression for idle wave decay rate with respect to noise power is derived. For model validation we use microbenchmarks and stencil algorithms on three different supercomputing platforms.


翻译:HPC 中大多数分布式模拟散装同步散装平行程序假定,在分配的一组计算节点中,可以连续和均匀地计算资源。然而,单个过程的长时间一次性拖延可能会通过系统撕裂而造成全球动乱,即所谓的闲置波浪。这一过程主要受基本平行代码的通信结构管理。本文为了解闲散波动态做出了重要贡献。我们研究了在MPI-平行程序各级的闲散波的传播机制。我们展示了一个经过验证的关于通信参数和地形学的传播速度分析模型,特别强调了稀有的通信模式。我们研究了闲散波与MPI集体的相互作用,并表明,视执行情况而定,一个集体可能对波形成透明。我们最后分析了两个无散波衰变机制:由于系统某些部分之间通信特点的差异而导致的表层腐烂,以及由系统或应用平台造成的噪音导致的衰变。我们显示,噪音引起的衰变主要独立于噪音特性的模型,但只取决于总体的通信模式,而只取决于电流波的特性。我们所支配的电压率是不同的超常状态。

0
下载
关闭预览

相关内容

【干货书】机器学习速查手册,135页pdf
专知会员服务
125+阅读 · 2020年11月20日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
77+阅读 · 2020年7月26日
模型优化基础,Sayak Paul,67页ppt
专知会员服务
75+阅读 · 2020年6月8日
【斯坦福】凸优化圣经- Convex Optimization (附730pdf下载)
专知会员服务
220+阅读 · 2020年6月5日
因果图,Causal Graphs,52页ppt
专知会员服务
246+阅读 · 2020年4月19日
2019年机器学习框架回顾
专知会员服务
35+阅读 · 2019年10月11日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
39+阅读 · 2019年10月9日
计算机 | 国际会议信息5条
Call4Papers
3+阅读 · 2019年7月3日
计算机类 | 低难度国际会议信息6条
Call4Papers
6+阅读 · 2019年4月28日
计算机 | USENIX Security 2020等国际会议信息5条
Call4Papers
7+阅读 · 2019年4月25日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
计算机类 | 11月截稿会议信息9条
Call4Papers
6+阅读 · 2018年10月14日
计算机类 | 国际会议信息7条
Call4Papers
3+阅读 · 2017年11月17日
【计算机类】期刊专刊/国际会议截稿信息6条
Call4Papers
3+阅读 · 2017年10月13日
【今日新增】IEEE Trans.专刊截稿信息8条
Call4Papers
7+阅读 · 2017年6月29日
Arxiv
0+阅读 · 2021年4月27日
Arxiv
0+阅读 · 2021年4月26日
Arxiv
0+阅读 · 2021年4月23日
VIP会员
相关VIP内容
【干货书】机器学习速查手册,135页pdf
专知会员服务
125+阅读 · 2020年11月20日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
77+阅读 · 2020年7月26日
模型优化基础,Sayak Paul,67页ppt
专知会员服务
75+阅读 · 2020年6月8日
【斯坦福】凸优化圣经- Convex Optimization (附730pdf下载)
专知会员服务
220+阅读 · 2020年6月5日
因果图,Causal Graphs,52页ppt
专知会员服务
246+阅读 · 2020年4月19日
2019年机器学习框架回顾
专知会员服务
35+阅读 · 2019年10月11日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
39+阅读 · 2019年10月9日
相关资讯
计算机 | 国际会议信息5条
Call4Papers
3+阅读 · 2019年7月3日
计算机类 | 低难度国际会议信息6条
Call4Papers
6+阅读 · 2019年4月28日
计算机 | USENIX Security 2020等国际会议信息5条
Call4Papers
7+阅读 · 2019年4月25日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
计算机类 | 11月截稿会议信息9条
Call4Papers
6+阅读 · 2018年10月14日
计算机类 | 国际会议信息7条
Call4Papers
3+阅读 · 2017年11月17日
【计算机类】期刊专刊/国际会议截稿信息6条
Call4Papers
3+阅读 · 2017年10月13日
【今日新增】IEEE Trans.专刊截稿信息8条
Call4Papers
7+阅读 · 2017年6月29日
Top
微信扫码咨询专知VIP会员