听说IBM发布了一款「为AI而生」的芯片？这事儿要从AI数据的传输与存储说起

2017 年 12 月 6 日 机器之能 邱陆陆

这是一篇每个人都看得懂的人工智能大硬件科普贴。顺便帮你捋一捋今天的人工智能科技媒体头条：听说 IBM 生产了个 AI 芯片？其实并不是！

撰文 | 邱陆陆

今天许多科技新闻的头条，都是美国东部时间 12 月 5 日，IBM 在纽约的 The AI Summit 上发布了主打「企业级 AI」的服务器，AC922。

AC922 宣传片

虽然被一众科技媒体冠名为「IBM 发布了 AI 芯片」，但事实是 IBM 在公布了全新的 POWER 架构——POWER9 之后将近 20 个月，终于发布了第一款基于 POWER9 的服务器系统。

只不过，这次的新系统在数据的输入输出方面作出了一些特殊的设计，修建了一条处理器与其他加速器以及内存之间的「高速公路」，让服务器能够胜任那些依赖大量高速数据传输与存储的任务——比如人工智能相关的任务。

硬件名词太多有点懵？没关系我们逐个聊一聊。

服务器其实是通过网络向用户提供服务的计算机，除了「特别强」以及「摸不着」之外，和我们手里的电脑本质上没区别。IBM 生产的就是这种专供企业级用户使用的服务器处理器。类比到电脑上，就是 CPU。

CPU 的中文名称叫做中央处理器，常常被比作计算机的「大脑」，是一个什么都能算的全能选手。全能选手为了顾及「全面」，难免欠缺一些在特定任务上的「特长」。

因此想要大量进行某一类特定计算时，我们往往会给 CPU 配一个术业有专攻的副手，我们通常称之为「加速器」。对于想要运行人工智能相关算法的人来说，这个「加速器」可能是 GPU，也可能是 FPGA 或者是 ASIC。

GPU（独立 GPU）基本被英伟达一家承包了。虽然从「图形处理器」的名字就能看得出来，这类芯片的初衷只是处理图形，但是由于图形算法和人工智能算法处理的对象归根结底都是矩阵，所以 GPU 跑起人工智能算法，性能也还不错。

FPGA 的大部分市场份额在赛灵思（Xilinx）和阿尔特拉（被英特尔收购了的 Altera）手中。

它的全名是现场可编程门阵列，是一块需要工程师「现场」给它「编程」告诉它做什么的白板。虽然用起来难度系数明显高于 GPU，但是其可编程的特性决定了这是一款可塑性极强的芯片，可以「哪里不会点哪里」，并且性能上的进步速度也远快于 CPU 和 GPU。

ASIC 叫做专用集成电路，指专门为某一任务定制的芯片（GPU 也可以算做专门为图形任务定制的 ASIC）。

专门为人工智能而定制的 ASIC 有谷歌的 TPU 和英特尔收购的 Nervana，但是人工智能 ASIC 的市场尚未规模化，TPU 是谷歌自用款，并不在市面上流通，Nervana 则尚未出货。

回到 IBM，在处理器方面，IBM 的专长是企业级高性能服务器的开发，其 POWER 架构相比于英特尔主导的 X86 架构，在可用性、稳定性上都有可以称道的地方，当然了，价格更加可称道。

除了服务于航空、金融等高端商用客户之外，POWER 架构也一直与 IBM 在 AI 方面的工作紧密相连。2011 年因为在常识问答类节目中力挫人类冠军选手赢得百万奖金的 IBM Watson 系统，就采用了之前的 POWER7 处理器。

这一代 POWER9 的筹备时间迄今已有 4 年，虽然单片的处理速度可能不及 Intel Xeon，但是他们瞄准了 AI 算法如今对于专门的加速芯片的需求以及加速芯片与通用芯片之间数据方面「算完了来不及存」的尴尬境况，着重强调了数据吞吐量，旨在建立其在机器学习应用方面的优势。

从官网上对 POWER 9 处理器的介绍中就可以看出，IBM 强调了 POWER9 最多可以达到 x86 架构 9.5 倍的 I/O 带宽，2 倍的处理核心数量，最多高 2.6 倍的内存空间以及 1.8 倍的内存带宽。

让我们把这些数字翻译成人话：

核心数更多意味着更强的计算能力。虽然单个核心上比不过英特尔，但是 POWER 的核心并行的时候线性性很好，类似打群架靠人数取胜。

带宽的提升与数据在不同芯片间的移动相关。如果你想要给你的服务器配上加速器跑人工智能算法的话，总要把数据在存储数据的内存和服务器之间、服务器和加速器之间、多个加速器彼此之间来回移。

现在的服务器上，这些数据跑来跑去的「公路」上由于带宽不足总是「堵车」，IBM 帮你把上面说的那几条公路都修成了高速公路。这些「高速公路」包括，与英伟达合作的下一代的 NVLINK，由 IBM 发起、包括谷歌等众多巨头参与的 OpenPower 组织所用的新一代 CAPI，也有常见的 PCIe，从 3.0 升级到了 4.0。

内存的提升则就更加简单粗暴了，存数据的空间更大了。

综合起来的效果，IBM 拿了几个常见机器学习框架跑了几个计算机视觉模型做例子：

同样是带着 4 块英伟达最新的 Tesla V100 GPU，用 Caffe 训练 2240*2240 大小的图像迭代 1000 次，AC922 的速度是英特尔至强 E5 的 3.8 倍。用 TensorFlow 测试 ResNet 模型，AC922 每秒处理的图像数量是至强的 1.35 倍。

当然了，这些数据只是 IBM 内部测试公布的数据，第一批 AC922 型号将于 12 月中旬发货，估计明年 1 月我们就能看到来自第三方的测评报告了。

IBM 工程师 Stefanie Chiras 检查 IBM POWER 系统服务器中的 POWER9 芯片

总的来说，IBM 看到了业界对于「针对人工智能和机器学习算法进行优化」的芯片与系统的需求，以此作为卖点推出了 POWER9 这一代架构。

美国能源部在 2014 年启动的超算计划 CORAL 将在 18 年启用 POWER9，而在会上，IBM 副总裁 Sumit Gupta 声称「有一大批现在正在使用 PowerAI（IBM 的人工智能软件工具箱）的客户将会在本月收到他们的新机」，听起来似乎有不少订单的样子。

相比于此，我们更期待亚马逊、谷歌这样的服务器与人工智能双料大玩家能在未来表现出对 POWER9 的兴趣——那会是 IBM 打了一场漂亮的 AI 硬件攻坚战的最好证明。