报告主题:How to deploy large-scale distributed data analytics and machine learning on containers (sponsored by HPE)
报告摘要:
数据量和复杂性每天都在增加,因此,公司必须了解其业务需求才能保持竞争优势。得益于AI,机器学习和深度学习(DL)项目(例如Apache Spark,H2O,TensorFlow和Horovod),这些组织不再需要锁定特定的供应商技术或专有解决方案来维持这种竞争优势。这些功能丰富的深度学习应用程序可直接从开源社区获得,其中包含针对特定用例量身定制的许多不同算法和选项。 企业面临的最大挑战之一是如何以一种简单且一致的方式部署这些开源工具(请记住,其中一些工具具有操作系统内核和软件组件)。例如,TensorFlow可以利用NVIDIA GPU资源,但是在GPU上运行TensorFlow要求用户在主机上设置NVIDIA CUDA库,并安装和配置TensorFlow应用程序以利用GPU计算工具。设备驱动程序,库和软件版本的组合可能令人望而生畏,并可能对许多用户造成失败。 此外,由于GPU是一种高级资源,因此组织希望最大限度地利用它们。使用这些资源的群集需要按需配置,并在计算完成后立即释放。 Docker容器是启用这种即时集群置备和取消置备的理想选择。它们还确保可重复且一致的部署。 Thomas Phelan演示了如何在安全的多租户环境中使用Docker容器上的GPU硬件加速功能来部署AI,ML和DL应用程序,包括Spark,TensorFlow和Horovod。在Docker容器中使用基于GPU的服务确实需要仔细考虑,因此他还将探索一些最佳实践。
嘉宾简介
Thomas Phelan是BlueData的联合创始人兼首席架构师。 此前,Silicon Graphics原始团队的成员设计并实现了XFS,这是第一个商业上可用的64位文件系统。 他是VMware的一名早期员工,一名高级工程师和ESX存储体系结构团队的关键成员,他在其中设计和开发了ESX存储I / O负载平衡子系统和模块化可插拔存储体系结构,并领导了许多关键团队 存储计划,例如云存储网关和vFlash。