业界 | 深度学习计算哪家强？最新云端&单机GPU横评

2018 年 2 月 12 日 机器之心

选自Medium

作者：Vincent Chu

机器之心编译

参与：路雪、李泽南

近日，Vincent Chu 在 Medium 上发文介绍自己对新一代 GPU 在各类深度学习任务上的测评结果，作者对比了 Paperspace Volta Tesla V100、Google Cloud P100、Amazon EC2 p3.2xlarge（Tesla V100）等云端计算平台，以及 Nvidia GeForce 1080Ti 单卡的成绩，具体测评结果详见全文。

随着机器学习（ML）研究人员和实践者们不断探索深度学习的范围，人们对于强大 GPU 计算能力的需求正在变得愈发强烈。面向目标检测、图像分割和语音转录等各种任务的新模型正在不断发展，并被应用于从自动驾驶到家庭助理等多个行业。

为了满足这样的 GPU 计算需求，亚马逊和谷歌等云服务提供商近期及时在服务项目中加入了 Volta 架构的 V100 GPU 和 Pascal 架构的 P100 GPU。另一家云 GPU 提供商 Paperspace 也在服务项目中加入了 Volta 系列 GPU。P100 和 V100 GPU 是当前市面上最好的 GPU，为机器学习应用实现最优的性能。这些 GPU 的性能优于之前的 Kepler 架构的 K80 GPU，同时它们还具备 16GB 的内存，保证更具表达性的 ML 模型和更大的训练小批量大小。

现代目标检测 pipeline 需要 GPU 来保证高效的训练

为了测试现代 GPU 在典型机器学习任务上的性能，我用英伟达最近发布的 GPU 训练了一个 Faster R-CNN/resnet101 目标检测模型。该模型在 TensorFlow 上实现，输入为 300x300px 的图像，训练小批量大小为 10、15、20 个图像。

测试所用 GPU/云 GPU：

Paperspace Volta (https://www.paperspace.com/volta-gpu) (16GB—$2.30/hour)
Google Cloud P100 (https://cloud.google.com/gpu/) (16GB—$1.73/hour)
Amazon EC2 p3.2xlarge Volta (https://aws.amazon.com/ec2/instance-types/p3/) (16GB—$3.06/hour)
Nvidia 1080Ti (https://www.nvidia.com/en-us/geforce/products/10series/geforce-gtx-1080-ti/) (11GB—Personal Machine)

注：该测试主要关注新型 GPU，因此没有测试 K80 和 Quadro GPU，它们的相关测评详见：https://medium.com/initialized-capital/benchmarking-tensorflow-performance-and-cost-across-different-gpu-options-69bd85fe5d58。

结果

从性能来看，Volta 毫无疑问是目前最强大的 GPU，性能显著优于 Nvidia 1080Ti（约 1.1-1.3 倍）和 P100（约 1.2-1.5 倍），尽管 1080Ti 才面世 9 个多月。这反映了英伟达发布强大 GPU 的一贯快节奏。

Volta GPU 的性能优于 Nvidia 1080Ti 和 P100 GPU

值得注意的是，在同样的训练任务上，Amazon Volta 实例性能不如 Paperspace Volta。我简单调查后，认为原因在于实例和 GPU 之间的缓慢输入／输出。只对比 Amazon 和 Paperspace 的 GPU 基准的结果展示了类似的性能。

从成本来看，Paperspace Volta 性价比高。同等性能条件下，Google P100 比 Paperspace Volta 贵大约 10%，亚马逊比 Paperspace Volta 贵 40% 以上。

Paperspace 和 Google 性价比较高

应该用哪种？

重度用户当然应该购买自己的 GPU。从云提供商处租 GPU 时间长了比较昂贵，而购买自己的 GPU，你可以以最低的成本获取最好的硬件，当然前提是你一直使用它们，不让钱白花（特别是在近期 GPU 价格飞涨的情况下）。
Paperspace Volta 适合不打算购买 GPU 的用户。对于只需要单个 GPU 的用户来说，使用 Volta 将带来较大的性能提升。
Google P100 使用起来最为灵活，它允许用户在任意实例上使用 1、2、4 个 P100 GPU（或最多 8 个 K80 GPU），允许用户自定义 CPU 和 GPU 配置来满足计算需求。尽管由于架构所限，Tesla P100 的性能略显落后，但从成本角度考虑，其性价比很有优势。
Amazon Volta 的性能优于 Google P100，也可以连接 1、4 或 8 个 GPU。但是，用户无法自定义基础实例类型。此外，它们性价比比较低。如果你迫切需要用 8 个 GPU 或在 EC2 上搭建模型，那么目前仍推荐使用 Amazon Volta。