TPUv4开放使用！谷歌新一代TPU性价比有多高？

2022 年 10 月 16 日 新智元

新智元报道

编辑：LRS

【新智元导读】性能比TPUv3提高2.23倍，价格只涨61%

谷歌如今能保持人工智能领域霸主地位，很大程度上依赖于自主研发的TPU。

自去年开始，谷歌就开始不断放风TPUv4，在论文中描述新一代TPU的架构设计，从前几代TPU设计中不断吸取经验。

5月19日，谷歌正式推出新一代人工智能ASIC芯片TPUv4，运算效能是上一代产品的2倍以上，由4096个TPUv4单芯片组成的pod运算集群，可释放高达1exaflop（每秒10的18次方浮点运算）的算力，超过了目前全球运算速度最快的超级计算机。

前段时间谷歌发布的5400亿参数语言模型PaLM就是用两个TPUv4 pods训练了大约64天得到的。

10月11日，谷歌举办Google Cloud Next 2022大会，正式面向大众开放第四代TPU使用权限。

有外媒记者与TPU的幕后人员进行深入交流，并研究大量的论文和技术报告后，写成了一篇TPUv4最全面、深入的报道，对第四代TPU的计算引擎及其相关系统进行概述。

第四代TPU

早在2013年，当谷歌正在为Google搜索引擎开发语音激活搜索功能时，谷歌研究员Jeff Dean在一张废纸上做了一会数学计算，发现如果这种人工智能辅助搜索投入生产，那么谷歌将不得不将其数据中心的规模扩大一倍。

题外话，Jeff Dean参与了许多谷歌的关键技术开发，包括谷歌的网络爬虫、索引、查询系统、AdSense、谷歌翻译的设计与实现、TensorFlow等等。

扩容数据中心对于一个「免费」的产品来说，并不会让搜索广告客户突然增加两倍，因此，谷歌必须努力为人工智能训练和推理建立一个更好的数学引擎。

TPU的目标是在一个特定领域对芯片进行体系结构设计，在去年发布的一篇论文中，谷歌详细介绍了TPUv4i的各项参数及性能，专门为推理进行调整优化，其中i就代表了推理。

论文链接：https://www.gwern.net/docs/ai/2021-jouppi.pdf

事实证明，TPUv4i推理芯片的生产大大领先于TPUv4通用引擎，其生产方式与Nvidia相反，这也表明了一个事实：谷歌真的非常需要廉价的推理引擎来驱动数十个应用程序，有TPU加持的人工智能可以扩展到更丰富的应用场景。

Google并没有准确的时间表报告何时将完整TPUv4的系统投入生产，据猜测大约是在2021年第四季度。

谷歌并不耻于在TPU设计上多留下一两个节点，这样做反而可以保持芯片设计和生产的低成本。

前沿计算引擎的成本很大一部分来自于高精尖设计工艺的不良率，虽然可以通过在设计中添加备用组件来降低成本，但是这同样也是有成本的。

而具有多个向量的芯片更便宜，也更容易通过供应链进入谷歌手中。

TPUv4i 推理晶片采用台积电公司的七纳米工艺制造，一年半前投产，作者猜测通用的TPUv4也是采用同样的七纳米工艺。

并且作者预测TPUv5i和TPUv5计算引擎将会采用5纳米进程，几乎可以肯定的是，这些引擎即将开始测试了，如果Google生产了 TPUv4i和TPUv4，以及 Google Cloud上的客户能够普遍使用 TPUv4的话。

TPU 核心的基本结构是，它有一个标量和并行向量处理机的前端，带有一个自主开发的矩阵数学单元，可以进行 BF16(谷歌为其 TPU 发明的一种格式)乘法和 FP32累加运算(有时还可以根据模型进行 INT8推理)。

最初的 TPUv1处理器有一个256 × 256的矩阵数学单元，这个单元非常庞大，而且正如 Google设计过程中改进的，这并不是最佳配置。

事实证明，谷歌自己的人工智能应用程序也不是64 × 64的数组。

矩阵吞吐量和利用率之间的最佳点是128 × 128数组，至少对于 Google 自己的代码来说是这样的。

Google发现了这一点之后，公司通过增加TPU核心(其中嵌入了 MXU 单元)或者在每个核心中增加 MXU 单元来扩大 TPU 的规模。

为了实现这个配置，每一代TPU的服务器板的样式都有变化。

在 TPUv4服务器板的右侧，可以看到一些相邻的芯片。这是一个6端口6 Tb/秒的交换机作为网络接口卡和3D 环形曲面网络（torus network）的基础。

刚听到TPUv4芯片消息的时候，大家并不确定Google是否会增加内核或者扩展 MXUs，而事实证明，Google一直将内核数量保持在2，并且再次将每个内核内的MXUs数量翻了一番。

除非有什么变化，否则这也将是Google创建TPUv5、 TPUv6等所有后代的设计方式。

在某个时候点，谷歌采用四核心取决于其自主开发的XLA机器学习编译器能做什么，但目前，提供更少数量的核是扩展应用程序最简单的方法。

可以注意到，TPUv4i 推理芯片本身就相当强大，单个TPU 核心就有四个128 × 128 MXU，运行频率为1.05 GHz，但只占用了400平方毫米的面积。

根据一些平面图估计，在单个内核上将 MXU 计数增加一倍，缓存也增加一倍，并添加一些其他的非核心特性来创建单个内核的全功能 TPUv4，可能只会将芯片尺寸增加到563平方毫米左右。

但是不管出于什么原因，可能与 XLA 编译器中双核 TPU 的优化有关，Google 做了一个双核心TPUv4 AI训练引擎，它的面积大约在780平方毫米左右。

可以看到，这两个核心TPUv4芯片表现为一个逻辑核心，一个32GB HBM 内存空间。

所以有理由怀疑它是一个整体设计，但它可能是由两个 TPUv4芯片捆绑在一个插口（socket）上，可以降低成本，但可能影响性能，具体取决于插口内互连。

中杯、大杯、超大杯

在过去三代TPU核心中，考虑向量规模的话，TPUv3是对TPUv2的一次渐进式「中年升级」，在输入和速度上提高了30%左右，在同样的16纳米工艺下，晶体管数量和芯片尺寸只有名义上的11%增加，芯片性能提高了2.67倍，HBM 主存容量提高了2倍(可以输入更大的数据集)。

除此之外，最大的区别在于2D 环面互连从 TPUv2芯片中的256个芯片扩展到TPUv3代中的1024个芯片，这也导致pod处理能力增加了10.7倍，从12petaflops增加到126petaflops(在 BF16操作中测量)。

TPUv4是计算引擎的真正升级，进程从16纳米缩小到7纳米，并且具有其他所有优点：MXU 的数量再次增加了一倍，缓存内存增加了九倍达到244 MB，HBM2内存带宽增加了33%到1.2 TB/秒，但有趣的是，HBM2内存容量保持在32 GB。

谷歌之所以能够做到这一点，是因为它可以疯狂地扩展TPUv4 pods，比如Nvidia 吹嘘自己可以将多达256个Hopper GH100 GPU与其NVSwitch结构紧密耦合，但新的3D 环面互连首次与带宽更大、基数更高的 TPUv4连接，可以将4096个TPUv4引擎紧密耦合在一起，总计达到1.126 exaflops 的 BF16计算。

其中8个 TPUv4 pods位于谷歌俄克拉荷马州梅斯县的数据中心，能够产生9 exaflops的原生人工智能计算速度。