作者是多位精英CIO、CTO和技术高管组成的福布斯杂志的常设部门Forbes Technology Council
过去这几年涌现出了全新类别的产品,这归功于机器学习和深度学习取得了非凡的进步。仅举几个例子,这些新技术在支持产品推荐、医疗成像中的计算机辅助诊断和自动驾驶汽车。
大多数机器学习和深度学习算法需要的计算资源(硬件、软件、存储和网络)与针对传统应用软件优化的那些计算资源大不一样。因而,随着越来越多的公司开发各自的机器学习/深度学习算法,并将这些算法部署到生产环境,市场对针对机器学习优化的计算资源的需求只会急剧增长,因而让新的进入者有机会提供可与如今的老牌云服务提供商:亚马逊AWS、微软Azure和谷歌云一较高下的解决方案。
机器学习/深度学习云不一样
在Mesosphere博客页面上的一篇文章(https://mesosphere.com/blog/smack-stack-new-lamp-stack/)中,爱德华•苏(Edward Hsu)提出了这个观点:Web应用程序现在主要是数据驱动的。因而,SMACK(Spark、Mesos、Akka、Cassandra和Kafka)这一套新的框架(又叫堆栈)势必会取代用来构建基于Web的应用程序的传统LAMP(Linux、Apache、MySQL和PHP)堆栈。在我看来,SMACK将与基于Web的传统框架和谐共存,并将数据馈送给这些传统框架,而不是取代LAMP,毕竟我们仍需要传统框架来呈现外观漂亮的网页,并与手机接口进行交互。
然而,主要观点有着充分的根据。我们需要将马克•安德森(MarcAndreesen)的那句名言“软件在蚕食世界”改成“数据在蚕食世界”。不妨对这个说法细细道来,并介绍由此带来的影响。
硬件
机器学习和深度学习带来的那种颠覆早已从软件堆栈扩大到了芯片、服务器和云服务提供商。这种颠覆根源于这个简单的事实:就机器学习和深度学习而言,GPU是效率比传统CPU高得多的处理器。
就在不久前,解决办法还是为传统服务器添加GPU附加卡。现在我们正处于这样一个时间点:市场对机器学习/深度学习计算的需求非常大,以至于厂商们在纷纷制造针对机器学习/深度学习计算负载优化的专用服务器。
数据中心也正在重新设计架构,以支持机器学习和深度学习耗用的超大量数据。设想一下你在设计自动驾驶汽车的大脑部件。你需要处理成千上万个小时的视频(以及其他诸如GPS、陀螺仪和LIDAR之类的信号)来训练算法。路面上行驶的一辆特斯拉汽车在1秒内记录的数据量比Facebook上一则推文或一个帖子的数据量多100万倍。
因此,机器学习/深度学习数据中心不仅需要海量的存储空间,还需要极高的带宽。
软件
软件方面来得还要复杂。转移数据和管理计算任务的执行需要一套新的基础设施堆栈,通常使用专门针对机器学习的框架,比如Tensorflow(最初由谷歌开发)或PyTorch(最初在Facebook开发)。此外,开源代码库(pandas、scikit-learn和matplotlib)用于实现模型(比如神经网络和数据显示)。这些模型库之所以至关重要,是由于它们已经过了优化,不仅就算法研究而言易于使用,还为用于生产环境提供了高性能。
最后,每家厂商都为特定的使用场合提供了完整的构建模块。比如说,亚马逊Lex、谷歌Cloud Speech和微软Bing Speech提供了语音识别,甚至可以识别意图。各自都有自己的API和独特的行为,这使得从一家厂商迁移到另一家厂商很耗费时间。
新的进入者
除了数年来提供GPU加速实例的三大云服务提供商(亚马逊AWS、微软Azure和谷歌云)外,现在还出现了针对机器学习优化的新产品:
•英伟达最近推出了一整套“专用的AI超级计算机”服务器,名为DGX系统。英伟达已经是GPU市场的头号提供商,计算机显示离不开显卡,而显卡离不开GPU。
Servers.com提供的Prisma Cloud配备针对GPU优化的专用服务器。
Rescale是专注于高性能计算(HPC)的小众云服务提供商之一,它刚刚宣布推出搭载GPU的最新一代服务器和高带宽互连技术,旨在搭建高性能多节点集群。
哪些巨头岌岌可危?
三大云服务提供商眼下面临被英伟达、Servers.com和Rescale等新的进入者颠覆的风险。由于算法领域的创新和计算效率提高,机器学习/深度学习方面的创新仍在高歌猛进。这就形成了一场小规模的“军备竞赛”:最终用户不断寻找可以提供那个额外优势的提供商。
一方面,最终用户在提供最佳软硬件计算环境的这场军备竞赛中获得了巨大好处。另一方面,最终用户又需要随时警惕,密切关注最新的产品。而更重要的是,将机器学习/深度学习产品部署到生产环境时,首席执行官和首席技术官需要挑选今后两到五年会保持优势的获胜者,或挑选至少未来的幸存者。而这并非易事。
我们会在未来的文章中更深入地探究这两个话题,敬请关注。
相关阅读: