能源高效的GPU集群调度方法——用于深度学习 (Energy-Efficient GPU Clusters Scheduling for Deep Learning) - 专知论文

会员服务 ·

0

性能模型 · GPU · 调度 · 调度器 · 分段 ·

2023 年 4 月 13 日

Energy-Efficient GPU Clusters Scheduling for Deep Learning

翻译：能源高效的GPU集群调度方法——用于深度学习

Diandian Gu,Xintong Xie,Gang Huang,Xin Jin,Xuanzhe Liu

Training deep neural networks (DNNs) is a major workload in datacenters today, resulting in a tremendously fast growth of energy consumption. It is important to reduce the energy consumption while completing the DL training jobs early in data centers. In this paper, we propose PowerFlow, a GPU clusters scheduler that reduces the average Job Completion Time (JCT) under an energy budget. We first present performance models for DL training jobs to predict the throughput and energy consumption performance with different configurations. Based on the performance models, PowerFlow dynamically allocates GPUs and adjusts the GPU-level or job-level configurations of DL training jobs. PowerFlow applies network packing and buddy allocation to job placement, thus avoiding extra energy consumed by cluster fragmentations. Evaluation results show that under the same energy consumption, PowerFlow improves the average JCT by 1.57 - 3.39 x at most, compared to competitive baselines.

翻译：训练深度神经网络(DNNs)是当今数据中心的主要负载工作之一，导致能源消耗呈急剧增长。在数据中心中，减少能源消耗的同时尽早完成DL训练工作非常重要。在本文中，我们提出了一种名为PowerFlow的GPU集群调度器，它可以在能源预算下缩短平均工作完成时间(JCT)。我们首先针对DL训练作业提出性能模型，预测不同配置下的吞吐量和能耗性能。基于性能模型，PowerFlow动态分配GPU并调整GPU或作业级别的DL训练作业配置。PowerFlow使用网络打包和伙伴分配来进行作业放置，从而避免由集群分段产生的额外能源消耗。评估结果表明，在相同的能源消耗下，与竞争基准相比，PowerFlow将平均的JCT提高了最多1.57-3.39倍。

1

相关内容

性能模型

南洋理工北大等首篇《GPU数据中心中深度学习工作负载调度》综述论文，35页pdf全面阐述DL训练与推理GPU调度技术进展

南洋理工北大等首篇《GPU数据中心中深度学习工作负载调度》综述论文，35页pdf全面阐述DL训练与推理GPU调度技术进展

专知会员服务

45+阅读 · 2022年5月27日

【2022新书】高效深度学习，Efficient Deep Learning Book

【2022新书】高效深度学习，Efficient Deep Learning Book

专知会员服务

125+阅读 · 2022年4月21日

高效可扩展图神经网络的研究进展，Recent Advances in Efficient and Scalable Graph Neural Networks

高效可扩展图神经网络的研究进展，Recent Advances in Efficient and Scalable Graph Neural Networks

专知会员服务

78+阅读 · 2022年3月15日

【Google】深度学习对抗鲁棒性，43页ppt

专知会员服务

45+阅读 · 2020年10月31日

【ACL2020-MIT-韩松】用于高效自然语言处理的硬件感知Transformer

【ACL2020-MIT-韩松】用于高效自然语言处理的硬件感知Transformer

专知会员服务

24+阅读 · 2020年5月29日

【深度学习表格检测、信息提取和结构化】《Table Detection, Information Extraction and Structuring using Deep Learning》by Vihar Kurama

专知会员服务

38+阅读 · 2020年1月23日

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

专知会员服务

49+阅读 · 2019年10月17日

强化学习最新教程，17页pdf

强化学习最新教程，17页pdf

专知会员服务

182+阅读 · 2019年10月11日

[综述]深度学习下的场景文本检测与识别

[综述]深度学习下的场景文本检测与识别

专知会员服务

78+阅读 · 2019年10月10日

【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用

【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用

专知会员服务

41+阅读 · 2019年10月9日

南洋理工北大等首篇《GPU数据中心中深度学习工作负载调度》综述论文，35页pdf全面阐述DL训练与推理GPU调度技术进展

南洋理工北大等首篇《GPU数据中心中深度学习工作负载调度》综述论文，35页pdf全面阐述DL训练与推理GPU调度技术进展

专知

3+阅读 · 2022年5月27日

Multi-Task Learning的几篇综述文章

Multi-Task Learning的几篇综述文章

深度学习自然语言处理

15+阅读 · 2020年6月15日

Transferring Knowledge across Learning Processes

Transferring Knowledge across Learning Processes

CreateAMind

29+阅读 · 2019年5月18日

Deep Compression/Acceleration：模型压缩加速论文汇总

Deep Compression/Acceleration：模型压缩加速论文汇总

极市平台

14+阅读 · 2019年5月15日

深度自进化聚类：Deep Self-Evolution Clustering

深度自进化聚类：Deep Self-Evolution Clustering

我爱读PAMI

15+阅读 · 2019年4月13日

强化学习的Unsupervised Meta-Learning

强化学习的Unsupervised Meta-Learning

CreateAMind

18+阅读 · 2019年1月7日

无监督元学习表示学习

无监督元学习表示学习

CreateAMind

27+阅读 · 2019年1月4日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

43+阅读 · 2019年1月3日

A Technical Overview of AI & ML in 2018 & Trends for 2019

A Technical Overview of AI & ML in 2018 & Trends for 2019

待字闺中

18+阅读 · 2018年12月24日

【论文】图上的表示学习综述

【论文】图上的表示学习综述

机器学习研究会

15+阅读 · 2017年9月24日

求解时间依赖问题的隐式时空并行 Schwarz 算法研究

国家自然科学基金

0+阅读 · 2017年12月31日

云环境下大规模动态图数据查询处理与优化技术研究

国家自然科学基金

2+阅读 · 2014年12月31日

GPU程序访存行为分析和优化关键技术研究

国家自然科学基金

1+阅读 · 2013年12月31日

面向动态规划计算的并行编程模型和运行时系统研究

国家自然科学基金

0+阅读 · 2013年12月31日

电力企业发电调度与燃料库存管理集成优化研究

国家自然科学基金

3+阅读 · 2013年12月31日

炼化系统大规模动态与多目标优化的GPU异构并行加速策略及方法

国家自然科学基金

2+阅读 · 2012年12月31日

设施选址问题基于线性规划的近似算法研究

国家自然科学基金

0+阅读 · 2012年12月31日

含大规模风电的电力系统备用需求多尺度优化决策研究

国家自然科学基金

0+阅读 · 2011年12月31日

大规模无线传感器监测网络节能与能量管理建模研究

国家自然科学基金

0+阅读 · 2009年12月31日

不确定环境下公交网络均衡分析与优化研究

国家自然科学基金

0+阅读 · 2009年12月31日

Elixir: Train a Large Language Model on a Small GPU Cluster

Arxiv

0+阅读 · 2023年5月31日

Dink-Net: Neural Clustering on Large Graphs

Arxiv

0+阅读 · 2023年5月31日

Integrated multi-operand optical neurons for scalable and hardware-efficient deep learning

Arxiv

0+阅读 · 2023年5月31日

Deep Operator Learning Lessens the Curse of Dimensionality for PDEs

Arxiv

0+阅读 · 2023年5月30日

HeterPS: Distributed Deep Learning With Reinforcement Learning Based Scheduling in Heterogeneous Environments

Arxiv

0+阅读 · 2023年5月28日

Exact and Heuristic Algorithms for Energy-Efficient Scheduling

Arxiv

0+阅读 · 2023年5月27日

Lightweight Parameter Pruning for Energy-Efficient Deep Learning: A Binarized Gating Module Approach

Arxiv

0+阅读 · 2023年5月26日

A Simulation Environment and Reinforcement Learning Method for Waste Reduction

Arxiv

0+阅读 · 2023年5月26日

Reconfigurable Distributed FPGA Cluster Design for Deep Learning Accelerators

Arxiv

0+阅读 · 2023年5月24日

A Survey of Deep Graph Clustering: Taxonomy, Challenge, and Application

Arxiv

13+阅读 · 2022年11月23日

VIP会员

文章信息

相关主题

相关VIP内容

南洋理工北大等首篇《GPU数据中心中深度学习工作负载调度》综述论文，35页pdf全面阐述DL训练与推理GPU调度技术进展

南洋理工北大等首篇《GPU数据中心中深度学习工作负载调度》综述论文，35页pdf全面阐述DL训练与推理GPU调度技术进展

专知会员服务

45+阅读 · 2022年5月27日

【2022新书】高效深度学习，Efficient Deep Learning Book

【2022新书】高效深度学习，Efficient Deep Learning Book

专知会员服务

125+阅读 · 2022年4月21日

高效可扩展图神经网络的研究进展，Recent Advances in Efficient and Scalable Graph Neural Networks

高效可扩展图神经网络的研究进展，Recent Advances in Efficient and Scalable Graph Neural Networks

专知会员服务

78+阅读 · 2022年3月15日

【Google】深度学习对抗鲁棒性，43页ppt

专知会员服务

45+阅读 · 2020年10月31日

【ACL2020-MIT-韩松】用于高效自然语言处理的硬件感知Transformer

【ACL2020-MIT-韩松】用于高效自然语言处理的硬件感知Transformer

专知会员服务

24+阅读 · 2020年5月29日

【深度学习表格检测、信息提取和结构化】《Table Detection, Information Extraction and Structuring using Deep Learning》by Vihar Kurama

专知会员服务

38+阅读 · 2020年1月23日

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

专知会员服务

49+阅读 · 2019年10月17日

强化学习最新教程，17页pdf

强化学习最新教程，17页pdf

专知会员服务

182+阅读 · 2019年10月11日

[综述]深度学习下的场景文本检测与识别

[综述]深度学习下的场景文本检测与识别

专知会员服务

78+阅读 · 2019年10月10日

【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用

【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用

专知会员服务

41+阅读 · 2019年10月9日

热门VIP内容

开通专知VIP会员享更多权益服务

【新书】面向企业的图学习扩展：生产级图学习与推理，485页pdf

AI智能体编程：技术、挑战与机遇综述

【国家标准】数据安全技术数据安全风险评估方法

【CMU博士论文】交互式学习的进展：替代性反馈机制与自适应因果推理

相关资讯

南洋理工北大等首篇《GPU数据中心中深度学习工作负载调度》综述论文，35页pdf全面阐述DL训练与推理GPU调度技术进展

南洋理工北大等首篇《GPU数据中心中深度学习工作负载调度》综述论文，35页pdf全面阐述DL训练与推理GPU调度技术进展

专知

3+阅读 · 2022年5月27日

Multi-Task Learning的几篇综述文章

Multi-Task Learning的几篇综述文章

深度学习自然语言处理

15+阅读 · 2020年6月15日

Transferring Knowledge across Learning Processes

Transferring Knowledge across Learning Processes

CreateAMind

29+阅读 · 2019年5月18日

Deep Compression/Acceleration：模型压缩加速论文汇总

Deep Compression/Acceleration：模型压缩加速论文汇总

极市平台

14+阅读 · 2019年5月15日

深度自进化聚类：Deep Self-Evolution Clustering

深度自进化聚类：Deep Self-Evolution Clustering

我爱读PAMI

15+阅读 · 2019年4月13日

强化学习的Unsupervised Meta-Learning

强化学习的Unsupervised Meta-Learning

CreateAMind

18+阅读 · 2019年1月7日

无监督元学习表示学习

无监督元学习表示学习

CreateAMind

27+阅读 · 2019年1月4日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

43+阅读 · 2019年1月3日

A Technical Overview of AI & ML in 2018 & Trends for 2019

A Technical Overview of AI & ML in 2018 & Trends for 2019

待字闺中

18+阅读 · 2018年12月24日

【论文】图上的表示学习综述

【论文】图上的表示学习综述

机器学习研究会

15+阅读 · 2017年9月24日

相关论文

Elixir: Train a Large Language Model on a Small GPU Cluster

Arxiv

0+阅读 · 2023年5月31日

Dink-Net: Neural Clustering on Large Graphs

Arxiv

0+阅读 · 2023年5月31日

Integrated multi-operand optical neurons for scalable and hardware-efficient deep learning

Arxiv

0+阅读 · 2023年5月31日

Deep Operator Learning Lessens the Curse of Dimensionality for PDEs

Arxiv

0+阅读 · 2023年5月30日

HeterPS: Distributed Deep Learning With Reinforcement Learning Based Scheduling in Heterogeneous Environments

Arxiv

0+阅读 · 2023年5月28日

Exact and Heuristic Algorithms for Energy-Efficient Scheduling

Arxiv

0+阅读 · 2023年5月27日

Lightweight Parameter Pruning for Energy-Efficient Deep Learning: A Binarized Gating Module Approach

Arxiv

0+阅读 · 2023年5月26日

A Simulation Environment and Reinforcement Learning Method for Waste Reduction

Arxiv

0+阅读 · 2023年5月26日

Reconfigurable Distributed FPGA Cluster Design for Deep Learning Accelerators

Arxiv

0+阅读 · 2023年5月24日

A Survey of Deep Graph Clustering: Taxonomy, Challenge, and Application

Arxiv

13+阅读 · 2022年11月23日

相关基金

求解时间依赖问题的隐式时空并行 Schwarz 算法研究

国家自然科学基金

0+阅读 · 2017年12月31日

云环境下大规模动态图数据查询处理与优化技术研究

国家自然科学基金

2+阅读 · 2014年12月31日

GPU程序访存行为分析和优化关键技术研究

国家自然科学基金

1+阅读 · 2013年12月31日

面向动态规划计算的并行编程模型和运行时系统研究

国家自然科学基金

0+阅读 · 2013年12月31日

电力企业发电调度与燃料库存管理集成优化研究

国家自然科学基金

3+阅读 · 2013年12月31日

炼化系统大规模动态与多目标优化的GPU异构并行加速策略及方法

国家自然科学基金

2+阅读 · 2012年12月31日

设施选址问题基于线性规划的近似算法研究

国家自然科学基金

0+阅读 · 2012年12月31日

含大规模风电的电力系统备用需求多尺度优化决策研究

国家自然科学基金

0+阅读 · 2011年12月31日

大规模无线传感器监测网络节能与能量管理建模研究

国家自然科学基金

0+阅读 · 2009年12月31日

不确定环境下公交网络均衡分析与优化研究

国家自然科学基金

0+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员