【博士论文】面向分布式深度学习的数据中心网络拓扑优化和流量调度

近年来，深度学习在许多应用领域取得了巨大成功。随着深度学习模型规模的不断增大，单一计算设备已远远无法满足深度学习模型训练的算力需求。为了提供强大的算力，利用数据中心内的海量服务器进行分布式深度学习训练已经非常普遍。然而，为了保证分布式训练结果与单机训练结果的一致性，分布式深度学习训练系统的不同节点间需要频繁地同步模型参数。许多研究工作和本文的研究都发现，参数同步所带来的网络通信开销已经成为限制分布式深度学习训练系统性能的重要因素。

本文通过对参数同步的通信现状进行分析，归纳出分布式深度学习训练面临的三项主要挑战：（1）大规模分布式训练的参数同步耗时长；（2）模型计算和参数传输之间存在依赖关系；（3）分布式训练性能受限于慢节点的训练速度。针对上述挑战，本文从网络拓扑优化和流量调度等方面入手，优化数据中心在支持分布式深度学习训练时的网络通信性能。本文的主要研究内容和贡献总结如下：

（1）提出了层次化参数同步算法 HiPS，并研究了多种参数同步算法和网络拓扑组合对参数同步速度的影响。传统的扁平化参数同步算法往往存在带宽竞争或通信时延累积问题。通过分层同步，HiPS 算法可以在减少参数同步流量的同时避免上述问题。本文还基于参数同步算法的通信特点对网络拓扑进行了优化。理论分析和仿真测试均发现，由于服务器带宽更高、负载均衡性能更优并且高效支持 RoCE 协议，HiPS+BCube 组合可以显著降低参数同步耗时。

（2）提出了基于深度学习模型感知的网络流量调度方案 Geryon。现有深度学习框架在传输多层参数时未考虑其消耗顺序，导致模型计算难以和参数同步重叠。为了实现全网规模参数传输调度，Geryon 根据模型计算顺序为参数同步流量分配优先级，并借助全网配置的严格优先级调度策略保证较早被消耗的参数更快到达接收端。对于多种深度学习模型，Geryon 均取得了显著的端到端训练性能提升。

（3）提出了面向异构分布式训练的网络流量调度方案 CEFS。现有深度学习框架在向多个计算节点传输参数时未考虑其计算性能，因此慢节点不得不与其他节点同时开始计算。CEFS 在参数传输调度的基础上，还优先调度慢节点的参数同步流量，以使其更早地触发前向计算，从而缓解慢节点对分布式系统的阻塞。实验结果表明，CEFS 可大幅提高慢节点的计算速度，并显著提升端到端训练性能。

成为VIP会员查看完整内容

相关内容

博士论文

关注 126

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下，选择自己能够把握和驾驭的潜在的研究方向，开辟新的研究领域。由此可见，这就对作者提出了较高要求，它要求作者必须在本学科的专业领域具备大量的理论知识，并对所学专业的理论知识有相当深入的理解和思考，同时还要具有相当水平的独立科学研究能力，能够为在学科领域提出独创性的见解和有价值的科研成果。因而，较之学士论文、硕士论文，博士论文具有更高的学术价值，对学科的发展具有重要的推动作用。

【博士论文】面向大规模部署的室内定位关键技术研究

专知会员服务

25+阅读 · 2022年12月19日

【博士论文】图处理加速架构研究

专知会员服务

26+阅读 · 2022年12月10日

分布式深度学习训练网络综述

专知会员服务

48+阅读 · 2021年2月2日

【博士论文】多层图分析技术研究

专知会员服务

38+阅读 · 2020年12月22日