会员服务 ·

谷歌这个大杀器要让英伟达慌了！！！

2018 年 2 月 25 日 数据玩家

本文经AI新媒体量子位（公众号ID:qbitai ）授权转载，转载请联系出处。

作者丨岳排槐

对于大多数搞深度学习的人来说，英伟达GPU之外其实没有更多选择。然而谷歌TPU芯片的出现，有望改变这一现状。

这个大名鼎鼎的AI芯片，即是谷歌各种AI应用和服务背后的支撑，也是名噪天下的AlphaGo背后的基础。碾压人类顶级围棋选手，只需要四块TPU。

但此前，很少有“外人”能一尝TPU的滋味。

在首次公布9个月后，谷歌TPU终于面向大众开放。10天前，谷歌的Cloud TPU正式发布。只需要每小时6.5美元，你也有可能用上谷歌TPU。

到底Cloud TPU实力如何？RiseML（riseml.com）最近做了一次对比评测。

云上的TPU

首先简单介绍一下测试对象。

第一代TPU面向推理，而第二代的重点是加速训练。在TPUv2的核心里，一个脉动阵列（Systolic array）负责执行矩阵乘法，这在深度学习中被大量使用。

根据Jeff Dean此前放出的PPT显示，每个Cloud TPU由四个TPUv2芯片组成。每个芯片有16GB内存和两个内核，每个内核有两个矩阵乘法单元。

两个内核能够提供45TFLOPs算力，所以每个Cloud TPU能提供180TFLOPs算力和64GB内存。作为对比，这一代英伟达V100 GPU提供125TFLOPs算力和16GB内存。

当你获得配额后，就能在谷歌云上启动Cloud TPU。无需（也没有办法）把一个Cloud TPU分配给指定的VM实例。每个Cloud TPU会有一个名字和IP地址，供用户提供TensorFlow代码。

△ 创建一个新的Cloud TPU

Cloud TPU仅支持TensorFlow 1.6版本。除此之外，你的VM实例上不需要任何驱动程序，因为与TPU进行通信所需的所有代码都由TensorFlow本身提供。在TPU上执行的代码经过优化，并由XLA进行实时编译，XLA也是TensorFlow的一部分。

为了有效使用TPU，你的代码应该建立在高级Estimator抽象上。然后可以用TPUEstimator^[1]来执行很多必要的任务，这也能更有效的利用TPU。例如，这可以为TPU设置数据队列并在不同的核心之间并行计算。

[1] https://www.tensorflow.org/api_docs/python/tf/contrib/tpu/TPUEstimator

一旦完成所有设置，就能像普通情况一样运行TensorFlow代码。TPU将在启动过程中被发现，然后计算图被编译并传输到TPU。有意思的是，TPU还可以直接从云存储中读取和写入，存储检查点或者事件摘要。当然你需要提供相应的写入和访问权限。

评测设置

这个评测最想得到的回答，当然是TPU速度有多快。

TensorFlow在GitHub上提供了一个针对TPU的模型仓库。地址在：https://github.com/tensorflow/tpu。

接下来的评测，基于ResNet和Inception。

我们还想知道，没有针对TPU进行优化的模型运行起来什么样，所以还有一个进行文本分类的LSTM模型运行在TPU上。而且这还是一个小模型，我们也想看看效果，因为通常谷歌建议在TPU上运行较大的模型。

所有的模型，都有会分别在单个Cloud TPU和单个英伟达P100、V100 GPU上进行训练，然后进行速度比较。当然，彻底的比较还应包括模型的最终质量、收敛性等。但是这次的评测，只关注了训练速度，更多情况稍后再详细研究。

在TPU和P100上的实验，运行于谷歌云平台的n1-standard-16实例（16 vCPUs Intel Haswell, 60 GB memory）。在V100上的实验，使用了亚马逊云的p3.2xlarge实例（8 vCPUs, 60 GB memory）。

所有的系统都运行于Ubuntu 16.04。对于TPU，我们从PyPi仓库安装了TensorFlow 1.6.0-rc1。GPU实验中运行了nvidia-docker^[2]，使用了TensorFlow 1.5（tensorflow:1.5.0-gpu-py3）其中包括CUDA 9.0和cuDNN 7.0。

[2] https://github.com/NVIDIA/nvidia-docker

实验结果：TPU优化的模型

首先来看看第一组结果，针对TPU优化过的模型表现如何。下面，可以看到性能对比，衡量标准是每秒能处理的图片数。

TPU的batch大小是1024，GPU是128。对于GPU，我们使用了TensorFlow基准仓库的实现，地址：https://github.com/tensorflow/benchmarks。训练数据是谷歌提供的伪ImageNet数据集，存储在云端（为TPU）和本地磁盘（为GPU）。

在ResNet-50上，单个Cloud TPU比单个P100快8.4倍，比V100快5.1倍。对于InceptionV3，结果差不多，分别快8.4倍和4.8倍。另外，如果把精度降低（fp16），V100的提速更加明显。

除了速度之外，成本也是重要考虑因素。下面这个表格显示，如果都在云端计算，TPU的性价比还是最高的。

实验结果：自定义的LSTM模型

我们自定义的模型时双向LSTM，使用1024隐藏单元进行文本分类。LSTM是当今NLP的一个基本构建模块，而上述官方模型都是基于计算机视觉。

源代码已经使用了Estimator框架，所以将其用于TPUEstimator非常简单。但是需要注意的是：在TPU上我们无法让模型收敛，而GPU上相同模型（batch大小等）工作正常。这应该是一个bug，或者是代码问题或是是TensorFlow的问题。

实验结果表明，在自定义的LSTM模型上，TPU还是更快。TPU（21402 examples/s）比P100（1658 examples/s）快16.9倍，比V100（2778 examples/s）快7.7倍。

由于这个模型相对较小，而且没有任何优化调整，所以结果喜人啊。当然bug还没修复，所以上述结果只是初步结果，仅供参考。

结论

上述参与测试的结果表明，谷歌Cloud TPU与英伟达最新一代GPU相比，性能更好而且经济实惠。虽然谷歌为TPU进行了更大规模模型的优化，但小型模型仍然受益于此。总的来说，尽管只是beta测试阶段，但Cloud TPU表现已经很好了。

RiseML最后给出结论：

一旦TPU能够容纳更多的用户使用，就可以成为英伟达GPU真正的替代者。

如何申请使用

最后说说，怎么才能用上数量有限的Cloud TPU。

要使用beta版的Cloud TPU，需要填个表，描述一下你要用TPU干什么，向谷歌申请配额：https://services.google.com/fb/forms/cloud-tpu-beta-request/

谷歌说，会尽快让你用上Cloud TPU。

此前的博客文章中，谷歌提到了两家客户使用Cloud TPU的感受。

一家是投资公司Two Sigma。他们的深度学习研究现在主要在云上进行，该公司CTO Alfred Spector说：“将TensorFlow工作负载转移到TPU上，大大降低了编程新模型的复杂性，缩短了训练时间。”

另一家是共享出行公司Lyft。深度学习正在成为这家公司无人车研究的重要组成部分。

登录查看更多

相关内容

TPU

关注 0

机器学习如何用于芯片系统设计？Jeff Dean推荐Google最新《机器学习系统芯片设计》70页ppt为你讲解

专知会员服务

61+阅读 · 2020年5月31日

新杀器来了！Facebook AI提出DETR：用Transformers来进行端到端的目标检测

专知会员服务

51+阅读 · 2020年5月28日

【陈天奇】TVM：端到端自动深度学习编译器，244页ppt

专知会员服务

87+阅读 · 2020年5月11日

斯坦福2020硬课《分布式算法与优化》

专知会员服务

123+阅读 · 2020年5月6日

【哈佛《CS50 Python人工智能入门》课程 (2020)】

专知会员服务

115+阅读 · 2020年4月12日

重磅｜2020ScaledML会议众多业界大拿演讲合辑：谷歌TensorFlow，微软ML，Pytorch,伯克利(附PPT）

专知会员服务

36+阅读 · 2020年3月16日

谷歌推出量子机器学习框架TFQ-TensorFlow Quantum，一个可训练量子模型的机器学习框架

专知会员服务

34+阅读 · 2020年3月10日

TensorFlow Lite指南实战《TensorFlow Lite A primer》，附48页PPT

专知会员服务

70+阅读 · 2020年1月17日

【电子书推荐】在谷歌云平台上构建机器学习和深度学习模型，703页pdf，一个全面的初学者指南

专知会员服务

41+阅读 · 2020年1月2日

谷歌机器学习速成课程中文版pdf

专知会员服务

147+阅读 · 2019年12月4日

Colab 超火的 Keras/TPU 深度学习免费实战，有点 Python 基础就能看懂的快速课程

新智元

3+阅读 · 2019年5月14日

Colab超火的Keras/TPU深度学习免费实战，有点Python基础就能看懂的快速课程

大数据文摘

4+阅读 · 2019年5月10日

免费！Google Colab现已支持英伟达T4 GPU

新智元

5+阅读 · 2019年4月25日

业界 | TensorFlow 2.0 Alpha 版来了！吴恩达配套课程同步上线

AI研习社

4+阅读 · 2019年3月9日

【永久免费使用谷歌GPU】英伟达可能要发布专用于挖矿的GPU

新智元

4+阅读 · 2018年3月9日

TensorFlow神经网络教程

Python程序员

4+阅读 · 2017年12月4日

终于！谷歌移动端深度学习框架 TensorFlow Lite 正式发布

开源中国

3+阅读 · 2017年11月16日

Pytorch还是Tensorflow？英伟达工程师帮你总结了

人工智能头条

5+阅读 · 2017年10月27日

手把手教你安装深度学习软件环境（附代码）

数据派THU

4+阅读 · 2017年10月4日

【机器学习】推荐13个机器学习框架

产业智能官

8+阅读 · 2017年9月10日

Multi-Paragraph Reasoning with Knowledge-enhanced Graph Neural Network

Arxiv

18+阅读 · 2019年11月6日

Syntax-Aware Aspect Level Sentiment Classification with Graph Attention Networks

Arxiv

10+阅读 · 2019年9月5日

3D Face Modeling from Diverse Raw Scan Data

Arxiv

5+阅读 · 2019年2月13日

The Evolved Transformer

Arxiv

5+阅读 · 2019年1月30日

DeepTraffic: Crowdsourced Hyperparameter Tuning of Deep Reinforcement Learning Systems for Multi-Agent Dense Traffic Navigation

Arxiv

5+阅读 · 2019年1月3日

Logically-Constrained Reinforcement Learning

Arxiv

3+阅读 · 2018年12月6日

Unsupervised Multilingual Word Embeddings

Arxiv

4+阅读 · 2018年9月6日

Quantizing deep convolutional networks for efficient inference: A whitepaper

Arxiv

6+阅读 · 2018年6月21日

BlockDrop: Dynamic Inference Paths in Residual Networks

Arxiv

6+阅读 · 2018年3月30日

Graph Attention Networks

Arxiv

10+阅读 · 2018年2月4日

VIP会员