报告摘要:
许多TensorFlow用户购买GPU来加速工作负载。但是,由于各种原因,人工智能集群中的GPU使用率通常非常低。在研发环境中,请求GPU实例的用户将大量时间花费在编码上,而无需在服务器上运行任何GPU工作负载。这是昂贵的GPU资源的极大浪费。 此次报告提供了解决此问题的高效且弹性的GPU共享系统的概述。它检测GPU API调用并在必要时分配GPU资源,并在没有工作负载运行时自动检索它们。将此方案与Kubernetes结合使用,可以在CPU盒上成功运行编码和编辑,以及在远程GPU实例上进行调试和执行。这种弹性系统极大地改善了GPU群集的使用。由于系统将GPU API调用转发到远程GPU服务器,因此Pengfei和Lingling在应用程序执行中引入了额外的延迟。为了缓解性能问题,他们进行了一些优化,以使TensorFlow在系统上更有效地运行。考虑到TensorFlow确实实现了memcpy和GPU内核的异步启动,他们稍微改变了重要CUDA API的行为,并在虚拟化层中使其功能保持正确,以使本地CPU和远程GPU异步运行。这种方法掩盖了大量的网络延迟,并且获得了2倍以上的加速。他们还修改了TensorFlow框架,以在远程执行中使用其他CUDA流,与在本地运行模式下使用多个CUDA流相比,它在系统上显示出更多的性能提升。在某些情况下,更改CPU和GPU节点之间的图形分区算法以最小化CPU和远程GPU服务器之间的数据移动也带来了好处。由于在系统中使用了远程存储,因此他们还使用GPU来直接访问远程SSD,以避免将数据复制到CPU节点。 构建这样的弹性GPU平台还需要一组经过修改的GPU监视和调试软件。他们的系统包括功能强大的配置文件部分,可以从本地和远程服务器收集配置文件数据,并在Web客户端中将其可视化。他们修改了TensorFlow框架,并使用NVIDA工具扩展(NVTX)库插入了一些标签,从而使更改后的框架可以在常规GPU机器及其系统上运行。这些标签为他们提供了一些有用的信息,例如关键运算符的开始和结束。它们可以与其他概要分析数据一起在Web客户端中可视化。 随着AI加速器的计算能力快速增长和网络速度提高,Pengfei和Lingling认为,将这些加速器集中在一起并通过网络提供服务是未来的趋势。他们正在将软件部署到研发环境中,并计划开放部分或全部解决方案的源代码,以便他们的框架可以与任何AI加速器一起使用,而不仅仅是GPU。

嘉宾介绍: Pengfei Fan是阿里云的高级异构计算工程师。 在此之前,他曾在NVIDIA从事GPU计算架构的研究。 Pengfei致力于为异构基础架构设计和实现虚拟化和调度系统,以加速AI应用程序并改善硬件使用。

Lingling Jin是阿里巴巴(Alibaba)的高级经理,她专注于异构基础架构,以加速AI应用程序并改善硬件使用。 之前,她是NVIDIA Compute Architecture Group的成员。 她在加州大学里弗赛德分校获得博士学位。

成为VIP会员查看完整内容
HARP_ An efficient and elastic GPU-sharing system Presentation.pdf
9

相关内容

Pengfei Fan是阿里云的高级异构计算工程师。 在此之前,他曾在NVIDIA从事GPU计算架构的研究。 Pengfei致力于为异构基础架构设计和实现虚拟化和调度系统,以加速AI应用程序并改善硬件使用。
【实用书】流数据处理,Streaming Data,219页pdf
专知会员服务
76+阅读 · 2020年4月24日
TensorFlow Lite指南实战《TensorFlow Lite A primer》,附48页PPT
专知会员服务
69+阅读 · 2020年1月17日
教程 | 从零开始搭建『深度学习』GPU开发环境
机器学习算法与Python学习
8+阅读 · 2019年10月28日
携程用ClickHouse轻松玩转每天十亿级数据更新
DBAplus社群
11+阅读 · 2019年8月6日
浅谈 Kubernetes 在生产环境中的架构
DevOps时代
11+阅读 · 2019年5月8日
【泡泡一分钟】动态环境下的高效长时间建图
泡泡机器人SLAM
6+阅读 · 2019年2月1日
深度学习的GPU:深度学习中使用GPU的经验和建议
数据挖掘入门与实战
11+阅读 · 2018年1月3日
热烈祝贺南京某高校DGX-1深度学习超级计算机集群顺利交付
北京思腾合力科技有限公司
5+阅读 · 2017年11月18日
Arxiv
35+阅读 · 2019年11月7日
Real-time Scalable Dense Surfel Mapping
Arxiv
5+阅读 · 2019年9月10日
Arxiv
8+阅读 · 2019年5月20日
Efficient and Effective $L_0$ Feature Selection
Arxiv
5+阅读 · 2018年8月7日
VIP会员
相关VIP内容
【实用书】流数据处理,Streaming Data,219页pdf
专知会员服务
76+阅读 · 2020年4月24日
TensorFlow Lite指南实战《TensorFlow Lite A primer》,附48页PPT
专知会员服务
69+阅读 · 2020年1月17日
相关资讯
教程 | 从零开始搭建『深度学习』GPU开发环境
机器学习算法与Python学习
8+阅读 · 2019年10月28日
携程用ClickHouse轻松玩转每天十亿级数据更新
DBAplus社群
11+阅读 · 2019年8月6日
浅谈 Kubernetes 在生产环境中的架构
DevOps时代
11+阅读 · 2019年5月8日
【泡泡一分钟】动态环境下的高效长时间建图
泡泡机器人SLAM
6+阅读 · 2019年2月1日
深度学习的GPU:深度学习中使用GPU的经验和建议
数据挖掘入门与实战
11+阅读 · 2018年1月3日
热烈祝贺南京某高校DGX-1深度学习超级计算机集群顺利交付
北京思腾合力科技有限公司
5+阅读 · 2017年11月18日
微信扫码咨询专知VIP会员