每秒1000000000000000000次运算！Cerebras新超级计算机打造世界最大1350万核心AI集群

会员服务 ·

每秒1000000000000000000次运算！Cerebras新超级计算机打造世界最大1350万核心AI集群

2022 年 11 月 15 日 新智元

新智元报道

编辑：昕朋

【新智元导读】没有什么问题是一台AI计算机解决不了的，如果有，那就用16台！

明星芯片企业Cerebras带着它餐盘大小的芯片来了，这次有16个！

更大、更快、更好用

周一，Cerebras公布了其用于深度学习的Andromeda AI超级计算机。据称，该计算机在16位半精度下能提供超过1 ExaFLOP，相当于每秒100亿亿次运算的算力！

Andromeda是一个由16台Cerebras CS-2计算机连接起来的集群，拥有1350万个AI核心，远远超过全球超算TOP500冠军Frontier的870万个核心。

该计算机还采用了18,176个AMD Epyc中央处理单元的芯片。

Andromeda由Cerebras晶圆级引擎Wafer Scale Engine（WSE-2）提供核心算力。

处理器是由被称为晶圆的硅盘制成的。在芯片制造过程中，一块晶圆被分割成几十个长方形，然后每个长方形被变成一个单独的处理器。

但是，Cerebras另辟蹊径，没有将晶圆分割成几十个小处理器，而是将其变成一个拥有数万亿晶体管的大处理器。

WSE-2是有史以来最大的芯片，包含2.6万亿个晶体管，组成85万个内核，面积超过46225平方毫米。Andromeda超级计算的芯片拼起来，有16个餐盘那么大！

相比之下，英伟达最大的GPU只有540亿个晶体管，面积为815平方毫米。

用大芯片赚足眼球后，Cerebras打起了Andromeda的三大招牌。

首先，Andromeda运行AI任务的设置非常简单。在严格的数据并行模式下，Andromeda实现了CS-2简易的模型分配，以及从1到16个CS-2的单键扩展。

Cerebras表示，用户只需3天时间，就可以在不对代码做任何改动的前提下，组装完成16个CS-2，进行AI任务处理。

其次，它的编程很简单。Cerebras的编译器处理了所有的细节和善后工作，用户只需输入一行代码，指定在多少个CS-2上运行，然后就大功告成了。

Andromeda可由多个用户同时使用，这意味着该超算不仅可以供一个用户从事一项工作，还可以同时服务于16个不同的用户从事16项不同的工作，工作效率和灵活度瞬间拉满。

更重要的是，这个系统展示了近乎完美的线性可伸缩性。

「近乎完美」的可伸缩性

近几年，神经网络的规模一直在稳步增长。在过去的一年里，OpenAI的GPT-3自然语言处理程序，一度以1750亿参数成为世界上最大的神经网络，后来很快被谷歌的1.6万亿参数模型Switch Transformer超过。

如此庞大的模型会遇到算力瓶颈问题，系统需求已经远远超出了单个计算机系统的处理能力。单个GPU的内存约为16GB，而GPT-3等模型所需的内存往往高达几百TB。

像过去一样，单纯进行简单粗暴的算力扩展，已经难以满足需求。

因此，系统集群变得至关重要。而如何实现集群，是一个最关键的问题。要让每台机器都保持忙碌，否则系统的利用率就会下降。

Cerebras 正是为了解决这个问题。

与任何已知的基于GPU的集群不同，Andromeda在GPT级大型语言模型中展现了「近乎完美」的可伸缩性。在GPT-3、GPT-J和GPT-NeoX中，Andromeda的处理能力随CS-2数量的增加呈现了近乎完美的线性增长。

这意味着，在集群中每增加一台CS-2计算机，整体的训练时间会以近乎线性的趋势减少。

做到这一点，离不开芯片与存储、分解和集群技术的协同工作。

Weight Memory & MemoryX：实现极速扩展

MemoryX是一种内存扩展技术，它使模型参数能够存储在芯片外，并有效地流式传输到 CS-2，实现同在芯片上那样的性能。

这一架构灵活性极强，支持4TB到2.4PB的存储配置，2000亿到120万亿的参数大小。

而通过软件执行模式Weight Memory，可以将计算和参数存储分解，使规模和速度得以独立且灵活地扩展，同时解决了小型处理器集群存在的延迟和内存带宽问题。

最终，WSE 2可以提供高达 2.4 PB 的高性能内存，CS-2 可以支持具有多达 120 万亿个参数的模型。

Cerebras SwarmX：提供更大、更高效的集群

这是一种人工智能优化的高性能通信结构，可将 Cerebras的芯片内结构扩展到芯片外，从而扩展AI集群，而且使其性能实现线性扩展。

最终，SwarmX 可以将CS-2 系统从2个扩展到192 个，鉴于每个 CS-2 提供85万个 AI 优化内核，Cerebras 便可连接 1.63 亿个 AI 优化内核集群。

同时，Cerebras WSE-2基于细粒度数据流架构，其 85万个 AI 优化计算内核可以单独忽略零。

Cerebras 架构独有的数据流调度和巨大的内存带宽，使这种类型的细粒度处理能够加速所有形式的稀疏性。这些都是其他硬件加速器，包括GPU，根本无法做到的事情。

Cerebras表示，可以训练超过90%的稀疏性模型，达到最先进的精度。

目前，包括美国阿贡国家实验室、AMD和剑桥大学等多名用户已经使用了Andromeda超算系统，都对其近乎完美的线性可收缩性能力赞不绝口。

其中，与阿贡国家实验室合作的基于HPC的COVID-19研究还入选有「超算领域的诺贝尔奖」之称的戈登·贝尔奖。

拥有世界最大的芯片和协同技术，Cerebras能否挑战目前超算Top 1的Frontier？我们拭目以待。

参考资料：

https://arstechnica.com/information-technology/2022/11/hungry-for-ai-new-supercomputer-contains-16-dinner-plate-size-chips/

https://www.forbes.com/sites/karlfreund/2022/11/14/cerebras-builds-its-own-ai-supercomputer-andromeda/?sh=2794ece11057

登录查看更多

相关内容

Andromeda

关注 0

Andromeda 是Google在2016年10月4日发布的融合了Android与ChromeOS的操作系统。

【2023新书】人工智能基础数学:高效和成功人工智能系统的下一级数学，701页pdf

专知会员服务

163+阅读 · 2023年1月19日

虚拟人创作更真更快！浪潮信息联手NVIDIA打造元宇宙算力方案

专知会员服务

22+阅读 · 2022年7月25日

Transformer 落地出现 | Next-ViT实现工业TensorRT实时落地，超越ResNet、CSWin

专知会员服务

22+阅读 · 2022年7月19日

ICLR | 训练面向分子模拟的十亿级参数 GNN

专知会员服务

8+阅读 · 2022年6月27日

唐杉博士：人工智能芯片发展及挑战

专知会员服务

48+阅读 · 2021年12月4日

NeurIPS 20201接收论文列表发布，2334篇论文都在这了！

专知会员服务

38+阅读 · 2021年11月4日

【阿里巴巴达摩院】TResNet: 高性能的GPU专用架构，GPU-Dedicated Architecture

专知会员服务

33+阅读 · 2020年4月1日

蚂蚁金服人工智能部论文《AGL:可扩展工业图机器学习系统》，处理十亿节点千亿边图数据的GNNs训练推理

专知会员服务

45+阅读 · 2020年3月9日

如何加速NVIDIA gpu上的训练、推理和ML应用？108页ppt，Accelerating training, inference, and ML applications on NVIDIA GPUs

专知会员服务

61+阅读 · 2019年12月29日

【机器学习论文推荐】EfficientNet:卷积神经网络的再思考模型缩放（EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks）

专知会员服务

17+阅读 · 2019年12月24日

单机训练200亿参数大模型：Cerebras打破新纪录

机器之心

1+阅读 · 2022年6月25日

扔掉老破V100、A100，英伟达新一代计算卡H100来了！

夕小瑶的卖萌屋

0+阅读 · 2022年3月24日

老黄狂拼CPU！英伟达掏出800亿晶体管显卡，外加世界最快AI超算Eos

THU数据派

0+阅读 · 2022年3月23日

英伟达新架构发布，AI芯片上限提升了九倍，20块带宽就等于全球互联网

机器之心

0+阅读 · 2022年3月22日

AI训练的效率正在超越摩尔定律

AI前线

0+阅读 · 2022年2月23日

每秒5百亿亿次！Meta祭出元宇宙巨兽，联手英伟达打造全球最强超算

THU数据派

0+阅读 · 2022年1月26日

Meta为元宇宙建全球最快AI超算，1.6万个A100 GPU，英伟达都赚麻了

量子位

2+阅读 · 2022年1月25日

全球首台百亿亿级超算用AMD的GPU：性能增7倍，能效提升3倍

机器之心

0+阅读 · 2021年12月25日

英伟达「核弹级」GPU A100不敌AMD？比起算力，CUDA才是核心武器

新智元

0+阅读 · 2021年11月14日

刚刚，这个英伟达挑战者宣布融资2.5亿美元：用世界最大的芯片，打造最快的AI计算机！

新智元

0+阅读 · 2021年11月11日

众核集群上基于MPI的模型扩展及性能优化研究

国家自然科学基金

1+阅读 · 2015年12月31日

异构众核芯片的可扩展全局功耗管理机制与算法研究

国家自然科学基金

0+阅读 · 2013年12月31日

面向逆时偏移算法的FPGA加速技术研究

国家自然科学基金

2+阅读 · 2013年12月31日

基于云计算的3D地震勘探专用GPS定位方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

异构多核平台上基于软件分布式共享内存的编程模型研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于云计算的协同进化粒子群算法及应用研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于GPU的搜索引擎数据组织和分布技术研究

国家自然科学基金

0+阅读 · 2012年12月31日

众核集群程序设计机制研究

国家自然科学基金

0+阅读 · 2011年12月31日

基于GPU/CPU协同计算的城市建筑群震害模拟

国家自然科学基金

0+阅读 · 2011年12月31日

异构平台上以数据为中心的多线程编程模型扩展

国家自然科学基金

0+阅读 · 2009年12月31日

ReFresh: Reducing Memory Access from Exploiting Stable Historical Embeddings for Graph Neural Network Training

Arxiv

0+阅读 · 2023年1月19日

The spatial computer: A model for energy-efficient parallel computation

Arxiv

0+阅读 · 2023年1月17日

Custom 8-bit floating point value format for reducing shared memory bank conflict in approximate nearest neighbor search

Arxiv

0+阅读 · 2023年1月17日

PECAN: Leveraging Policy Ensemble for Context-Aware Zero-Shot Human-AI Coordination

Arxiv

0+阅读 · 2023年1月16日

Applicable Regions of Spherical and Plane Wave Models for Extremely Large-Scale Array Communications

Arxiv

0+阅读 · 2023年1月15日

Characteristics-Informed Neural Networks for Forward and Inverse Hyperbolic Problems

Arxiv

0+阅读 · 2023年1月13日

Near-optimal Online Algorithms for Joint Pricing and Scheduling in EV Charging Networks

Arxiv

0+阅读 · 2023年1月11日

Transformer Tracking

Arxiv

17+阅读 · 2021年3月29日

Linguistically-Informed Self-Attention for Semantic Role Labeling

Arxiv

17+阅读 · 2018年8月28日

Graph Convolutional Neural Networks for Web-Scale Recommender Systems

Arxiv

14+阅读 · 2018年6月6日

VIP会员