福布斯：机器学习和深度学习将革老牌云服务提供商的命

2017 年 10 月 24 日 云头条

作者是多位精英CIO、CTO和技术高管组成的福布斯杂志的常设部门Forbes Technology Council

过去这几年涌现出了全新类别的产品，这归功于机器学习和深度学习取得了非凡的进步。仅举几个例子，这些新技术在支持产品推荐、医疗成像中的计算机辅助诊断和自动驾驶汽车。

大多数机器学习和深度学习算法需要的计算资源（硬件、软件、存储和网络）与针对传统应用软件优化的那些计算资源大不一样。因而，随着越来越多的公司开发各自的机器学习/深度学习算法，并将这些算法部署到生产环境，市场对针对机器学习优化的计算资源的需求只会急剧增长，因而让新的进入者有机会提供可与如今的老牌云服务提供商：亚马逊AWS、微软Azure和谷歌云一较高下的解决方案。

机器学习/深度学习云不一样

在Mesosphere博客页面上的一篇文章（https://mesosphere.com/blog/smack-stack-new-lamp-stack/）中，爱德华•苏（Edward Hsu）提出了这个观点：Web应用程序现在主要是数据驱动的。因而，SMACK（Spark、Mesos、Akka、Cassandra和Kafka）这一套新的框架（又叫堆栈）势必会取代用来构建基于Web的应用程序的传统LAMP（Linux、Apache、MySQL和PHP）堆栈。在我看来，SMACK将与基于Web的传统框架和谐共存，并将数据馈送给这些传统框架，而不是取代LAMP，毕竟我们仍需要传统框架来呈现外观漂亮的网页，并与手机接口进行交互。

然而，主要观点有着充分的根据。我们需要将马克•安德森（MarcAndreesen）的那句名言“软件在蚕食世界”改成“数据在蚕食世界”。不妨对这个说法细细道来，并介绍由此带来的影响。

硬件

机器学习和深度学习带来的那种颠覆早已从软件堆栈扩大到了芯片、服务器和云服务提供商。这种颠覆根源于这个简单的事实：就机器学习和深度学习而言，GPU是效率比传统CPU高得多的处理器。

就在不久前，解决办法还是为传统服务器添加GPU附加卡。现在我们正处于这样一个时间点：市场对机器学习/深度学习计算的需求非常大，以至于厂商们在纷纷制造针对机器学习/深度学习计算负载优化的专用服务器。

数据中心也正在重新设计架构，以支持机器学习和深度学习耗用的超大量数据。设想一下你在设计自动驾驶汽车的大脑部件。你需要处理成千上万个小时的视频（以及其他诸如GPS、陀螺仪和LIDAR之类的信号）来训练算法。路面上行驶的一辆特斯拉汽车在1秒内记录的数据量比Facebook上一则推文或一个帖子的数据量多100万倍。

因此，机器学习/深度学习数据中心不仅需要海量的存储空间，还需要极高的带宽。

软件

软件方面来得还要复杂。转移数据和管理计算任务的执行需要一套新的基础设施堆栈，通常使用专门针对机器学习的框架，比如Tensorflow（最初由谷歌开发）或PyTorch（最初在Facebook开发）。此外，开源代码库（pandas、scikit-learn和matplotlib）用于实现模型（比如神经网络和数据显示）。这些模型库之所以至关重要，是由于它们已经过了优化，不仅就算法研究而言易于使用，还为用于生产环境提供了高性能。

最后，每家厂商都为特定的使用场合提供了完整的构建模块。比如说，亚马逊Lex、谷歌Cloud Speech和微软Bing Speech提供了语音识别，甚至可以识别意图。各自都有自己的API和独特的行为，这使得从一家厂商迁移到另一家厂商很耗费时间。

新的进入者

除了数年来提供GPU加速实例的三大云服务提供商（亚马逊AWS、微软Azure和谷歌云）外，现在还出现了针对机器学习优化的新产品：

•英伟达最近推出了一整套“专用的AI超级计算机”服务器，名为DGX系统。英伟达已经是GPU市场的头号提供商，计算机显示离不开显卡，而显卡离不开GPU。