【导读】关于《深度学习系统优化》综述论文
深度学习(Deep Learning, DL)模型在视觉、语言、医疗、商业广告、娱乐等许多应用领域都取得了优异的表现。随着DL应用和底层服务硬件的快速发展,都显示出了强大的扩展趋势,即模型扩展和计算扩展,例如,最近的预训练模型具有数千亿参数,内存消耗约TB级,以及提供数百个TFLOPS的最新GPU加速器。随着规模化趋势的出现,DL推理服务系统出现了新的问题和挑战,逐步向大规模深度学习服务系统发展。本综述旨在总结和分类大规模深度学习服务系统出现的挑战和优化机会。通过提供一种新颖的分类方法,总结计算范式,阐述最新的技术进展,我们希望本综述能够揭示新的优化视角,激发大规模深度学习系统优化的新工作。
地址:
https://www.zhuanzhi.ai/paper/9ee7ca2cf6457080794f9b6608f09e7a
深度学习(DEEP Learning, DL)模型,如CNN[15,36,44],Transformers[2,7,10,29]和推荐模型[31,41]在许多认知任务,如视觉、语音和语言应用中取得了优异的表现,这在许多领域产生重要的应用,如医学图像分析[38],照片造型[34],机器翻译[40],产品推荐[31]、定制广告[13]、游戏[21]等。这种广泛的DL应用带来了巨大的市场价值,也带来了大量的DL服务流量。例如,FB有18.2亿的日活跃用户[11]。广告推荐查询的数量可以达到每秒10M查询。消费者生成数据的巨大增长和DL服务的使用也推动了对以人工智能为中心的数据中心(如亚马逊AWS[27]和微软Azure[6])的需求,以及对GPU等强大的DL加速器的日益采用。根据[35]的报告,2018年,GPU在全球数据中心加速器市场上以298300万美元的份额占据了85%的主要份额。到2025年,该产品将达到298.19亿美元。
多对多计算范式以DNN实例(I)和计算设备(D)之间的关系为特征,新兴的LDS计算范式除了单实例单设备(SISD)外,还可以分为三个新的类别,即多实例单设备(MISD),单实例多设备(SIMD)和多实例多设备(MIMD),如图2所示。与专注于单模型性能的SISD不同,LDS工作有不同的优化目标,包括推理延迟、服务吞吐量、成本、可扩展性、服务质量等。例如,多租户推理(multi-tenant inference, MISD)的目标是提高服务吞吐量和电力效率,而超大规模模型推理服务的目标是以低成本提高硬件可伸缩性。
大规模设计和技术由于推理服务的规模,LDS工作也在算法创新、运行时调度和资源管理方面面临许多优化挑战和机遇。例如,多租户推理优化寻求细粒度的硬件资源分区和作业调度,例如空间/时间共享,以提供QoS保证。由于延迟通信瓶颈,分布式推理需要专门的模型-硬件协同优化,例如高效的模型分片和平衡协作等。
专知便捷查看
便捷下载,请关注专知公众号(点击上方蓝色专知关注)
后台回复“LSDL” 就可以获取《深度学习如何规模化?GMU微软等最新《大规模深度学习服务系统优化研究》综述论文, 阐述大规模深度学习推理系统优化挑战与机遇》专知下载链接