分布式深度学习训练网络综述

近年来深度学习在图像、语音、自然语言处理等诸多领域得到广泛应用，但随着人们对深度学习的训练速度和数据处理能力的需求不断提升，传统的基于单机的训练过程愈发难以满足要求，分布式的深度学习训练方法成为持续提升算力的有效途径．其中训练过程中节点间网络的通信性能至关重要，直接影响训练性能.分析了分布式深度学习中的性能瓶颈，在此基础上对目前常用的网络性能优化方案进行综述，详细阐述了目前最新的超大规模分布式训练的体系结构、优化方法、训练环境和最有效的优化方法，最后对分布式训练仍然存在的困难进行了总结，对其未来研究方向进行了展望.

http://crad.ict.ac.cn/CN/10.7544/issn1000-1239.2021.20190881

成为VIP会员查看完整内容

相关内容

分布式计算

关注 0

分布式計算( Distributed computing )是一種把需要進行大量計算的工程數據分割成小塊，由多台計算機分別計算，在上傳運算結果後，將結果統一合并得出數據結論的科學。目前常見的分布式計算項目通常使用世界各地上千萬志願者計算機的閒置計算能力，通過互聯網進行數據傳輸。如分析計算蛋白質的內部結構和相關藥物的Folding@home項目，該項目結構龐大，需要驚人的計算量，由一台電腦計算是不可能完成的。即使現在有了計算能力超強的超級電腦，但是一些科研機構的經費卻又十分有限。

跨媒体分析与推理技术研究综述

专知会员服务

70+阅读 · 2021年3月11日

图像修复研究进展综述

专知会员服务

64+阅读 · 2021年3月9日

自然语言处理预训练模型的研究综述

专知会员服务

123+阅读 · 2020年12月9日

基于深度学习的图像补全算法综述

专知会员服务

46+阅读 · 2020年12月4日