寒武纪发布云端AI芯片思元370，「chiplet」技术打造，性能大幅提升2倍

会员服务 ·

寒武纪发布云端AI芯片思元370，「chiplet」技术打造，性能大幅提升2倍

2021 年 11 月 5 日 机器之心

机器之心报道

机器之心编辑部

公司成立仅 5 年，寒武纪科技就已推出三代云端 AI 芯片，并实现了四次处理器架构的迭代。

又一款重磅国产 AI 芯片发布了。

11 月 3 日晚间，寒武纪宣布推出自研第三代云端 AI 芯片思元 370，及搭载该芯片的 MLU370-S4、MLU370-X4 加速卡和全新升级的 Cambricon Neuware 软件栈。

思元 370 是寒武纪首款采用 chiplet（芯粒）技术的 AI 芯片，应该也是国内首颗 chiplet AI 芯片。基于台积电 7nm 制程工艺，整体集成了 390 亿个晶体管，最大算力达到 256TOPS（INT8），这一数据是寒武纪第二代产品思元 270 算力的 2 倍。

凭借寒武纪最新智能芯片架构 MLUarch03，相较于峰值算力的提升，思元 370 实测性能表现非常亮眼：同功率性能超过 T4 两倍还多，完成同样的任务，功耗可以是 A10 的一半。

自思元 100 以来，寒武纪在三年之内已经连续推出三代云端 AI 芯片，最新一代产品在工艺制程、架构、指令集和软件等方面有了全面的提升，实现了同级芯片的顶尖水平。

一半功耗，实现业内领先性能

此次发布中，寒武纪推出了两款基于思元 370 的加速卡：一款高密度、半高半长、功耗 75W 的 MLU370-S4 智能加速卡和高性能、全高全长、功耗 150W 的 MLU370-X4 智能加速卡。

与上一代产品相比，思元 370 系列加速卡在性能、能效方面都有大幅度提升。例如对标准 ResNet-50v1 进行软件定制优化后，MLU370-X4 加速卡性能高达 30204 fps。

寒武纪 MLU370-X4 加速卡。

寒武纪表示，在 Cambricon Neuware SDK 上实测，常用的 4 个深度学习网络模型中，MLU370-S4 加速卡的性能平均接近市场主流 70W GPU 的 2 倍。而在能效方面，MLU370-S4 优势更为明显，处理相同 AI 任务相较于 70W GPU 用电量减少 50% 以上。

相比主流同尺寸 GPU 产品， MLU370-S4 加速卡的性能优势。

MLU370-S4 加速卡在解码方面具有优势，相较于同尺寸 GPU，其可以提供 3 倍的解码能力和 1.5 倍的编码能力。总体而言，MLU370-S4 加速卡着重体现了高密度优势。MLU370-X4 加速卡的优势则表现为高性能，算力可达 256TOPS（INT8），加强了 FP16、FP32 的计算性能，新增 BF16 计算类型。

在 Cambricon Neuware SDK 上进行实测可知，常用的 4 种深度学习网络模型中，X4 加速卡与市场主流 150W GPU 相比，性能表现 2 项持平 2 项更优，实测能效则为 GPU 的 2 倍。如 YOLOv3 物体检测网络中，MLU370-X4 的性能是 150W GPU 性能的 1.5 倍，能效为 GPU 的 2.5 倍。

相比主流 GPU 产品，MLU370-X4 的性能优势。

从功耗与加速卡配置来看，寒武纪推出的加速卡对标的正是 AI 算力的标杆英伟达：思元 370-X4 加速卡在 70-75W 功率上性能大幅领先于 T4，在 150W 功率上又实现了与最新一代安培架构、基于 GA102 核心的 A10 持平或小幅领先，功耗效率则高出 2 倍还多。

这意味着在推理任务上，同等尺寸的思元 370 加速卡可以 2 倍性价比替代 T4，相比 A10 甚至 A30 也可以节省超过 1/4 的总拥有成本（TCO）。

在英伟达该级别芯片生产接近停滞的当前，寒武纪的芯片显得极具竞争力。

MLU370-S4、MLU370-X4 两种加速卡的规格。

为什么在计算机视觉和自然语言处理任务中，寒武纪能够做到超越同级数据中心的 GPU？在性能的背后，是寒武纪全方位的技术革新。

「chiplet」技术，未来芯片的发展方向

根据英伟达的统计，自 2012 年到现在的大规模深度学习模型参数量呈现指数增长。相比之下，即使通过增加功耗等方法，AI 芯片的算力还是只能延续每两年翻倍的速度。

为了提供更高的运算效能，人们寻找的方法包括增加处理器核心数量，提升缓存容量及 I/O 数量等等。这些情况使得 IC 设计者即便使用最先进制程，也很难把芯片尺寸变得更小。

自 2017 年底英伟达发布 Tesla V100 之后，训练最大模型的算力需求增长了 3000 倍。

从英伟达 T4 到 A10 的迭代我们可以看出，制程从 12nm 进步到 8nm，功耗翻倍，性能提升则是 2.2-2.5 倍。另一方面，先进制程、低良品率造成的成本问题也让芯片厂商不堪重负，使用 chiplet 的方式打造新一代芯片或许是未来的重要发展方向。

思元 370 是寒武纪首次采用 chiplet 技术打造的芯片，在一颗芯片中封装 2 颗 AI 计算芯粒（被称为 MLU-Die），每个 MLU-Die 具备独立的 AI 计算单元、内存、IO 以及 MLU-Fabric 控制和接口，相互之间通过 MLU-Fabric 保证两个 MLU-Die 间的高速通讯。

此前，AMD 在 CPU 上就通过使用 7 纳米制程和 chiplet 构建芯片的方式实现了对于英特尔的「逆袭」。最近一段时间，英特尔也提出即将使用 chiplet 构建芯片的计划。在一块芯片上置入多个 die 虽然可以提高晶圆的利用效率，但会面临很多技术方面的问题，芯粒间的信息传递速度是其中最大的挑战。

尤其在深度学习的推理和训练任务中，模型和数据在芯片内部是强并行的，所以芯粒间信息传递速度的问题还会更加凸显。对此，寒武纪称 MLU-Fabric 能够以低功耗、低延时、超高带宽的技术来解决传递速度的问题，帮助用户实现应用无感知的体验，单从这点来看，寒武纪 MLU-Fabric 芯粒间的互联技术已经超越了 AMD 的处理器。

思元 370 采用 chiplet 技术，可实现不同算力、内存和编解码器的组合。

尽管寒武纪已经凭借思元 370 验证了自己在 chiplet 技术上的突破，但 chiplet 技术，仍会面临着诸多挑战，例如在封装技术与生产工艺、EDA 工具链、片上互联（NoC）或 Interposer 上互联、chiplet 间接口与协议标准化、chiplet 模块的 DFT、验证、可靠性与 DFM 等方面仍然有较多经验需要积累。

但寒武纪对 chiplet 技术依然充满信心，并希望思元 370 可以通过不同的组合为客户提供更多样化的产品选择。

处理器架构大幅更新

架构方面的改进是思元 370 的又一个升级重点，在 AI 芯片上，整型常用于推理，浮点运算应用于训练，寒武纪自研的智能处理器架构 MLUarch03 拥有新一代张量运算单元，全面加强了 FP16、BF16 以及 FP32 的浮点算力，同时支持推理和训练任务。

寒武纪智能芯片架构演进。

芯片的指令集对于任务执行效率与硬件本身几乎同等重要，当年英特尔在摩尔定律减缓的情形下就采取了 Tick Tock 策略——一代提升制程，一代改进指令集。自研架构的寒武纪对自家芯片拥有完整操控权限，也可以实现两条腿走路，其在思元 370 上更新了指令集，内置的 Supercharger 模块大幅提升了各类卷积效率。

Supercharger 和多算子硬件融合技术。

思元 370 采用的全新 MLUv03 指令集功能更加完备，效率更高且向前兼容，其还采用了全新的多算子硬件融合技术，在软件融合的基础上大幅减少算子执行时间。

新的加速卡还升级了内存，从 DDR4 升级为 LPDDR5，带宽从 102.4GB/s 提升至 307.2GB/s，LPDDR5 是一种适用于移动端的内存产品，是如今中高端手机的标配。为什么要把它用在云端 AI 加速卡上？这或许是在带宽、成本和能效比之间进行权衡的结果。

思元 370 是国内第一款公开发布支持 LPDDR5 内存的云端 AI 芯片，从数据上看，其内存带宽达到了上一代产品的 3 倍，访存能效达 GDDR6 的 1.5 倍。

全新推理加速引擎 MagicMind

MagicMind 是寒武纪全新打造的推理加速引擎，其定位对标的应该就是英伟达 CUDA 之上的 TensorRT，但是架构和功能上相对于 TensorRT 更为先进和强大。在寒武纪的整体软件栈架构中，MagicMind 之下是高效软件栈工具和高性能库，并且还提供了 Bang 语言支撑定制化开发功能。

MagicMind 的优势在于可提供极致的性能、可靠的精度以及简洁的编程接口，让用户能够专注于业务本身，无需理解芯片更多底层细节就可实现模型的快速高效部署。与此同时，通过 MagicMind 插件化的设计，还可以满足在性能或功能上追求差异化竞争力的客户需求。

MagicMind 支持跨框架的模型解析、自动后端代码生成及优化，在 MLU、GPU、CPU 训练好的算法模型上，借助 MagicMind，用户仅需投入极少的开发成本，即可将推理业务部署到寒武纪全系列产品上，并获得优化后具有竞争力的性能。

推理加速引擎 MagicMind 是寒武纪软件栈 Cambricon Neuware 全新升级的重要组成部分。

为了加快用户端到端业务落地的速度，减少模型训练研发到模型部署之间的繁琐流程，寒武纪的统一基础软件平台 Cambricon Neuware 整合了训练和推理的全部底层软件栈，包括底层驱动、运行时库、算子库以及工具链等，将 MagicMind 和深度学习框架 Tensorflow，Pytorch 做了深度融合，可以实现训推一体。

随着软件栈升级，开发者们在寒武纪全系列计算平台上，从云端到边缘端，用户均可以无缝地完成从模型训练到推理部署的全部流程，进行灵活的训练推理业务混布和潮汐式的业务切换，可快速响应业务变化，提升算力利用率，降低运营成本。

在通用性方面，Cambricon Neuware 支持 FP32、FP16 混合精度、BF16 和自适应精度训练等多种训练方式并提供灵活高效的训练工具，高性能算子库已完整覆盖视觉、语音、自然语言处理和搜索推荐等典型深度学习应用，可满足用户对于算子覆盖率以及模型精度的需求。

支持 8K 解码，加入硬件安全模块

思元 370 升级了视频图像编解码单元，可提供更高效的视频处理能力和更优的编码质量，支持更复杂、更繁重、低延时要求的计算机视觉任务。

解码方面，思元 370 可支持 132 路 1080p 视频解码或 10 路 8K 视频解码。编码方面，全新编码器通过灵活的码率优化（RDO）控制、多参考帧、二次编码等特性组合，在相同图像质量（全高清视频 PSNR）的情况下比上一代产品节省 42% 带宽，有效降低带宽成本。

思元 370 视频编码质量显著提升

此外，寒武纪还在思元 370 芯片上内置了安全模块，切实保障用户信息安全。它成为了寒武纪第一颗支持国内外主流加密标准的云端芯片，支持用户数据、深度学习模型的加解密以及计算结果的加密输出，通过信任根的方式，保障 AI 芯片在启动及运行过程中加载的所有代码的安全性，还支持远程认证，用户可在业务运行过程中远程验证 AI 环境安全性。