史上最大AI芯片诞生:462平方厘米、40万核心、1.2万亿晶体管,创下4项世界纪录

2019 年 8 月 20 日 量子位
晓查 发自 凹非寺 
量子位 报道 | 公众号 QbitAI

美国一家芯片公司Cerebras推出了史上最大AI芯片,号称“晶圆级引擎”(Cerebras Wafer Scale Engine,简称WSE)。

WSE将逻辑运算、通讯和存储器集成到单个硅片上,是一种专门用于深度学习的芯片。它创下了4项世界纪录:

  1. 晶体管数量最多的运算芯片:总共包含1.2万亿个晶体管。虽然三星曾造出2万亿个晶体管的芯片,却是用于存储的eUFS。

  2. 芯片面积最大:尺寸约20厘米×23厘米,总面积46,225平方毫米。面积和一块晶圆差不多。

  3. 片上缓存最大:包含18GB的片上SRAM存储器。

  4. 运算核心最多:包含40万个处理核心。

WSE由台积电代工,但是并没有使用当前最先进的7nm工艺,而是使用相对较老的16nm制程工艺制造。

台积电运营高级副总裁JK Wang表示:“我们对与Cerebras合作制造WSE非常满意,这是晶圆级开发的行业里程碑。”

虽然WSE制造成本可能很高,但Cerebras认为片上互连比构建和连接独立的内核速度更快、成本更低。

与其他芯片对比

WSE可以说是个庞然大物,一般的芯片都可以放在手掌心,而WSE面积比Mac的键盘还要大。官方在介绍这款芯片时,需要用双手捧着,和展示晶圆没什么两样。

WSE面积比英伟达最大的GPU核心V100还要大56倍,V100核心的尺寸为815平方毫米,包含211亿个晶体管。

最近AMD为数据中心提供的Epyc 2芯片,也是世界上最快的x86处理器,也只有320亿个晶体管,数量仅为WSE的30分之一。

英特尔最新的桌面级处理器i9-9900k有16MB缓存,英伟达RTX 2080Ti有5.5MB二级缓存,在WSE 18GB缓存面前也是小巫见大巫。RTX 2080Ti已经堪称功耗怪兽,TDP为250W,而WSE则需要15千瓦的供电。

性能参数

WSE包含40万个对AI优化的计算核心,称为稀疏线性代数核心(SLAC),它灵活、可编程,并针对支持所有神经网络计算的稀疏线性代数进行了优化。

SLAC的可编程性确保内核可以在不断变化的机器学习领域中运行所有神经网络算法。

由于稀疏线性代数核心针对神经网络计算基元进行了优化,因此它们可实现业界最佳利用率,通常是GPU的3~4倍。此外,WSE核心包括Cerebras发明的稀疏性收集技术,加速深度学习这类稀疏工作负载的计算性能。

零在深度学习计算中很普遍。通常要相乘的向量和矩阵中的大多数元素都是零。然而乘以零会浪费计算资源。


通常GPU和TPU被设计为永不遇到零的计算引擎,它们即使有零也会乘以每个元素。当深度学习中50-98%的数据为零时,大多数乘法都被浪费了。

由于Cerebras稀疏线性代数核心不会乘以零,所有零数据都会被滤除,并且可以在硬件中跳过,从而可以用着节约的资源去完成有用的工作。

内存是每个计算机体系结构的关键组件。更接近计算核心的缓存能带来更低的延迟和更好的数据移动效率。

高性能深度学习需要大量计算,并且频繁访问数据。这需要计算核心和存储器之间的紧密接近,但是在GPU中并非如此,大容量的显存并不在GPU核心上,而是外置的。

WSE片上的缓存达到了18GB,是GPU缓存的3000倍;可提供每秒9PB的内存带宽, 比GPU快10,000倍。

Swarm是WSE上使用的处理器之间的通信结构,它只用传统通讯技术功耗的几分之一就实现了突破性的带宽和低延迟。

Swarm提供低延迟、高带宽的2D网格,可连接WSE上的所有40万个核心,带宽为每秒100 petabits。WSE通信能量成本远低于每比特1pJ,这比图形处理单元低近两个数量级。

面临的问题

为何其他芯片厂商不制造如此大尺寸的芯片呢?这是因为在制造晶圆的过程中不可避免会有一些杂质,这些杂质会导致芯片的故障。

通常的做法是将一片很大的晶圆切割成若干个小片,从中挑选出其中可用的部分,封装成芯片,而将报废部分丢弃。

而Cerebras的芯片已经和晶圆面积差不多大了,是在一个晶圆上切割出一块大的芯片,制造过程中不可避免会产生缺陷。

为了解决缺陷导致良率不高的问题,Cerebras在设计的芯片时候考虑了1~1.5%的冗余,添加了额外的核心,当某个核心出现问题时将其屏蔽不用,因此有杂质不会导致整个芯片报废。

Cerebras团队遇到的另外一个问题是芯片的刻蚀。今天的光刻设备仍然只能刻蚀面积较小的单个芯片。因此Cerebras与台积电合作发明了新技术,来处理具有万亿加晶体管芯片的刻蚀和通讯问题。

即使芯片制造成功,接下来还要面临三重挑战:热膨胀、封装和冷却。

Cerebras的芯片功率达15千瓦,与AI集群相当。给单个芯片提供巨大的功率,要考虑多方面的因素。

由于芯片在运行中会变得非常热,但是不同材料的热膨胀系数不同。这意味着将芯片与PCB的热膨胀系数不能差距太大,否则两者之间产生裂缝。

Cerebras在芯片上方安装了一块“冷却板”,使用多个垂直安装的水管直接冷却芯片。由于芯片太大而无法放入任何传统封装中,Cerebras还设计了结合了连接PCB和晶圆两者的定制连接器以及冷却装置。

关于Cerebras

Cerebras公司由Sean Lie(首席硬件架构师)、Andrew Feldman(首席执行官)等人于2016年创立。后者曾创建微型服务器公司SeaMicro,并以3.34亿美元的价格出售给AMD。

该公司在加州有194名员工,其中包括173名工程师,迄今为止已经从Benchmark等风投机构获得了1.12亿美元的投资。

参考资料:

https://venturebeat.com/2019/08/19/cerebras-systems-unveils-a-record-1-2-trillion-transistor-chip-for-ai/

https://www.pcworld.com/article/3432977/cerebras-systems-new-deep-learning-chip-is-as-big-as-your-keyboard-and-the-largest-ever.html

https://www.crunchbase.com/organization/cerebras-systems#section-overview

作者系网易新闻·网易号“各有态度”签约作者


活动推荐 | AI计算盛会限时免费报名

2019人工智能计算大会将于8月27日-28日在北京举办,通过量子位特邀渠道,即可获得原票价1099限时免费报名通道。识别下图二维码即可报名。

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

喜欢就点「好看」吧 !

登录查看更多
0

相关内容

半导体元件产品的统称。是集成电路(IC, integrated circuit)的载体,由晶圆分割而成。
斯坦福2020硬课《分布式算法与优化》
专知会员服务
119+阅读 · 2020年5月6日
MIT公开课-Vivienne Sze教授《深度学习硬件加速器》,86页ppt
阿里巴巴达摩院发布「2020十大科技趋势」
专知会员服务
106+阅读 · 2020年1月2日
【德勤】中国人工智能产业白皮书,68页pdf
专知会员服务
303+阅读 · 2019年12月23日
已删除
将门创投
7+阅读 · 2018年11月5日
最低月薪过万,市场缺口5万人,今天免费带你入门
互联网架构师
5+阅读 · 2018年6月4日
全球最大AI独角兽诞生中国,商汤科技凭什么?
商业周刊中文版
5+阅读 · 2018年4月9日
人工智能产业链,是时候梳理一下了!
物联网智库
3+阅读 · 2018年1月19日
Heterogeneous Graph Transformer
Arxiv
27+阅读 · 2020年3月3日
Arxiv
9+阅读 · 2019年11月6日
Question Generation by Transformers
Arxiv
5+阅读 · 2019年9月14日
Doubly Attentive Transformer Machine Translation
Arxiv
4+阅读 · 2018年7月30日
Arxiv
8+阅读 · 2018年5月15日
Arxiv
4+阅读 · 2018年3月14日
Arxiv
6+阅读 · 2018年2月28日
Arxiv
5+阅读 · 2018年2月26日
VIP会员
相关论文
Heterogeneous Graph Transformer
Arxiv
27+阅读 · 2020年3月3日
Arxiv
9+阅读 · 2019年11月6日
Question Generation by Transformers
Arxiv
5+阅读 · 2019年9月14日
Doubly Attentive Transformer Machine Translation
Arxiv
4+阅读 · 2018年7月30日
Arxiv
8+阅读 · 2018年5月15日
Arxiv
4+阅读 · 2018年3月14日
Arxiv
6+阅读 · 2018年2月28日
Arxiv
5+阅读 · 2018年2月26日
Top
微信扫码咨询专知VIP会员