NVIDIA深度架构

AI芯片，自动驾驶与计算机视觉专家

NVIDIA深度架构

本文介绍A100 GPU，NVIDIA Ampere架构GPU的重要新功能。

现代云数据中心中运行的计算密集型应用程序的多样性推动了NVIDIA GPU加速的云计算的爆炸式增长。此类密集型应用程序包括AI深度学习（DL）训练和推理，数据分析，科学计算，基因组学，边缘视频分析和5G服务，图形渲染，云游戏等。从扩展的AI训练和科学计算，到扩展的推理应用程序，再到支持实时对话式AI，NVIDIA GPU提供了必要的功能，加速当今云数据中心中运行的众多复杂且不可预测的工作负载。

NVIDIA GPU是推动AI革命的领先计算引擎，为AI训练和推理算力提供了极大的提速。此外，NVIDIA GPU加速了许多类型的HPC和数据分析应用程序和系统，能够有效地分析，可视化数据并将其转化为战略分析。NVIDIA加速计算平台对于许多世界上最重要，增长最快的行业至关重要。

推出NVIDIA A100 Tensor Core GPU

NVIDIA A100 Tensor Core GPU基于新的NVIDIA Ampere GPU架构，基于先前的NVIDIA Tesla V100 GPU的功能构建。增加了许多新功能，显着提高了HPC，AI和数据分析工作负载的性能。

A100为在单GPU工作站和多GPU工作站，服务器，集群，云数据中心，边缘系统和超级计算机中运行的GPU计算和DL应用程序提供了强大的扩展能力。A100 GPU支持构建弹性，多功能和高吞吐量的数据中心。

A100 GPU包括革命性的新型多实例GPU（MIG）虚拟化和GPU分区功能，特别有利于云服务提供商（CSP）。当配置为MIG操作时，A100允许CSP提高其GPU服务器的利用率，无需额外成本，即可提供多达7倍的GPU实例。强大的故障隔离功能使他们可以安全，安全地对单个A100 GPU进行分区。

A100添加了功能强大的新型第三代Tensor Core，可在V100之上提高吞吐量，增加了对DL和HPC数据类型的全面支持，以及新的Sparsity功能，将吞吐量进一步提高一倍。

A100中的新TensorFloat-32（TF32）Tensor Core操作提供了一条简单的路径，加速DL框架和HPC中的FP32输入/输出数据，运行速度比V100 FP32 FMA操作快10倍，具有稀疏性则快20倍。对于FP16 / FP32混合精度DL，A100 Tensor Core的性能是V100的2.5倍，而稀疏性则提高到5倍。

新的Bfloat16（BF16）/ FP32混合精度Tensor Core操作以与FP16 / FP32混合精度相同的速率运行。Tensor Core加速了INT8，INT4和二进制，全面支持DL推理，其中A100稀疏INT8的运行速度比V100 INT8快20倍。对于HPC，A100 Tensor Core包括新的符合IEEE标准的FP64处理，处理能力是V100的FP64的2.5倍。

NVIDIA A100 GPU的架构不仅可以加速大型复杂工作负载，可以有效地加速许多较小的工作负载。A100使建筑数据中心能够适应无法预测的工作负载需求，提供细粒度的工作负载供应，更高的GPU利用率和改进的TCO。

NVIDIA A100 GPU提供了超过V100的超速提速，用于AI训练和推理工作负载。

主要特征

基于NVIDIA Ampere架构的GA100 GPU在台积电7nm N7制造工艺上制造，为A100提供动力，包括542亿个晶体管，管芯尺寸为826 mm2。

A100 GPU流式多处理器

基于NVIDIA Ampere架构的A100 Tensor Core GPU中的新流式多处理器（SM）大大提高了性能，基于Volta和Turing SM架构中引入的功能，增加了许多新功能。

A100第三代Tensor内核增强了操作数共享，提高了效率，添加了功能强大的新数据类型，其中包括：

· TF32 Tensor Core指令可加速FP32数据的处理

· 适用于HPC的IEEE兼容FP64 Tensor Core指令

· BF16 Tensor Core指令的吞吐量与FP16相同

峰值FP64	9.7 TFLOPS
峰值FP64 Tensor Core	19.5 TFLOPS
峰值FP32	19.5 TFLOPS
峰值FP16	78 TFLOPS
高峰BF16	39 TFLOPS
峰值TF32 Tensor Core	156 TFLOPS \| 312 TFLOPS
峰值FP16 Tensor Core	312 TFLOPS \| 624 TFLOPS
峰值BF16张量核心	312 TFLOPS \| 624 TFLOPS
峰值INT8张量核心	624 TOPS \| 1,248 TOPS
峰值INT4张量核心	1,248 TOPS \| 2,496 TOPS

表1. A100 Tensor Core GPU性能规格。
1）峰值速率基于GPU增强时钟。
2）使用新的稀疏性功，能实现有效的TFLOPS / TOPS。

A100 Tensor Core中的新稀疏支持，可以利用DL网络中的细粒度结构稀疏性来使Tensor Core操作的吞吐量增加一倍。

与V100相比，A100中更大，更快的L1高速缓存和共享内存单元提供了每SM聚合容量的1.5倍（192 KB对比每个SM 128 KB），从而为许多HPC和AI工作负载提供了额外的加速。

几个新的SM功能提高了效率和可编程性，降低了软件复杂性。

40 GB HBM2和40 MB L2缓存

为了满足其巨大的计算吞吐量，NVIDIA A100 GPU拥有40 GB的高速HBM2内存，具有一流的1555 GB /秒的内存带宽，与Tesla V100相比增加了73％。此外，A100 GPU拥有更多的片上内存，其中包括40 MB的2级（L2）缓存-比V100大7倍-以最大化计算性能。借助新的分区交叉开关结构，A100 L2缓存提供了V100的L2缓存读取带宽的2.3倍。

为了优化容量利用率，NVIDIA Ampere体系结构提供了L2缓存驻留控件，管理要保留或从缓存中逐出的数据。A100还增加了计算数据压缩功能，使DRAM带宽和L2带宽最多增加4倍，L2容量最多增加2倍。

多实例GPU

全新的多实例GPU（MIG）功能，使A100 Tensor Core GPU可以安全地划分为多达七个用于CUDA应用程序的独立GPU实例，从而为多个用户提供独立的GPU资源以加速其应用程序。

使用MIG，每个实例的处理器都具有贯穿整个内存系统的单独且隔离的路径。片上交叉开关端口，L2缓存库，存储器控制器和DRAM地址总线，唯一地分配给单个实例。确保单个用户的工作负载，预测吞吐量和延迟运行，具有相同的二级缓存分配和DRAM带宽，即使其它任务正在破坏自己的缓存，或使DRAM接口饱和也一样。

MIG在提供定义的QoS和在不同客户端（例如VM，容器和进程）之间提供隔离的同时，提高了GPU硬件利用率。MIG对于具有多租户用例的CSP尤其有利。除了提供增强的安全性，为客户提供GPU利用率保证之外，确保一个客户端不会影响其他客户端的工作或日程安排。

第三代NVIDIA NVLink

在A100 GPU中实现的第三代NVIDIA高速NVLink互连和新的NVIDIA NVSwitch大大增强了多GPU的可扩展性，性能和可靠性。通过每个GPU和交换机的更多链接，新的NVLink提供了更高的GPU-GPU通信带宽，改善了错误检测和恢复功能。

第三代NVLink每对信号的数据速率为50 Gbit / sec，几乎是V100中25.78 Gbit / sec速率的两倍。单个A100 NVLink与V100相似，在每个方向上可提供25 GB /秒的带宽，与V100相比，每个链接仅使用一半的信号对数量。A100中的链接总数从V100中的6条增加到12条，总带宽为600 GB /秒，而V100为300 GB /秒。

支持NVIDIA Magnum IO和Mellanox互连解决方案

A100 Tensor Core GPU与NVIDIA Magnum IO和Mellanox最新的InfiniBand和以太网互连解决方案完全兼容，加速多节点连接。

Magnum IO API集成了计算，网络，文件系统和存储，可为多GPU，多节点加速系统最大化I / O性能。与CUDA-X库接口，加速从AI和数据分析到可视化的各种工作负载的I / O。

具有SR-IOV的PCIe Gen 4

A100 GPU支持PCI Express Gen 4（PCIe Gen 4），通过提供31.5 GB /秒的速度（相对于x16连接的15.75 GB /秒），使PCIe 3.0 / 3.1的带宽增加了一倍。更快的速度对于连接到支持PCIe 4.0的CPU的A100 GPU以及支持快速网络接口（例如200 Gbit / sec InfiniBand）特别有利。

A100还支持单根输入/输出虚拟化（SR-IOV），从而可以为多个进程或VM共享和虚拟化单个PCIe连接。

改进的错误和故障检测，隔离和控制

通过检测，包含并经常纠正错误和故障，而不是强制GPU重置，最大化GPU的正常运行时间和可用性至关重要。在大型多GPU群集和单GPU多租户环境（例如MIG配置）中尤其如此。A100 Tensor Core GPU包括改进错误/故障归因，隔离和控制的新技术。

异步复制

A100 GPU包含一个新的异步复制指令，可将数据直接从全局内存加载到SM共享内存中，而无需使用中间寄存器文件（RF）。异步复制减少了寄存器文件的带宽，更有效地使用了内存带宽，降低了功耗。顾名思义，异步复制可以在SM执行其它计算时在后台完成。

异步屏障

A100 GPU在共享内存中提供了硬件加速的障碍。这些屏障可使用CUDA 11以符合ISO C ++的屏障对象的形式使用。异步屏障将屏障到达和等待操作分开，可用于通过SM中的计算，将异步副本从全局内存重叠到共享内存中。可用于使用CUDA线程来实现生产者－消费者模型。屏障还提供了以不同的粒度（不仅仅是扭曲或块级别）同步CUDA线程的机制。

任务图加速

CUDA任务图为将工作提交到GPU提供了更有效的模型。任务图由依赖关系连接的一系列操作（例如内存副本和内核启动）组成。任务图启用了一次定义和重复运行的执行流程。预定义的任务图允许在一次操作中启动任意数量的内核，从而大大提高了应用程序的效率和性能。A100添加了新的硬件功能，以使任务图中的网格之间的路径显着加快。

A100 GPU硬件架构

NVIDIA GA100 GPU由多个GPU处理群集（GPC），纹理处理群集（TPC），流式多处理器（SM）和HBM2内存控制器组成。

GA100 GPU的完整实现包括以下单元：

· 每个完整GPU 8个GPC，8个TPC / GPC，2个SM / TPC，16个SM / GPC，128个SM

· 每个完整GPU 64个FP32 CUDA内核/ SM，8192个FP32 CUDA内核

· 每个完整GPU 4个第三代Tensor核心/ SM，512个第三代Tensor核心

· 6个HBM2堆栈，12个512位内存控制器

GA100 GPU的A100 Tensor Core GPU实现包括以下单元：

· 7个GPC，7个或8个TPC / GPC，2个SM / TPC，最多16个SM / GPC，108个SM

· 每个GPU 64个FP32 CUDA内核/ SM，6912个FP32 CUDA内核

· 每个GPU 4个第三代Tensor内核/ SM，432个第三代Tensor内核

· 5个HBM2堆栈，10个512位内存控制器

具有128个SM的完整GA100 GPU。A100基于GA100，具有108个SM。

A100 SM架构

新的A100 SM大大提高了性能，建立在Volta和Turing SM体系结构中引入的功能的基础上，增加了许多新功能和增强功能。

A100 SM图如图5所示。Volta和Turing每个SM具有八个Tensor核心，每个Tensor核心每个时钟执行64个FP16 / FP32混合精度融合乘加（FMA）操作。A100 SM包括新的第三代Tensor内核，每个内核每个时钟执行256个FP16 / FP32 FMA操作。A100每个SM有四个Tensor内核，每个时钟总共可提供1024个密集的FP16 / FP32 FMA操作，与Volta和Turing相比，每个SM的计算能力提高了2倍。

SM的主要功能在此处简要描述：

· 第三代Tensor核心：

o 加速所有数据类型，包括FP16，BF16，TF32，FP64，INT8，INT4和二进制。

o 新的Tensor Core稀疏功能利用深度学习网络中的细粒度结构稀疏性，使标准Tensor Core操作的性能提高了一倍。

o A100中的TF32 Tensor Core操作提供了一条简单的路径来加速DL框架和HPC中的FP32输入/输出数据，运行速度比V100 FP32 FMA操作快10倍，而具有稀疏性时则快20倍。

o FP16 / FP32混合精度Tensor Core操作为DL提供了空前的处理能力，运行速度比V100 Tensor Core操作快2.5倍，稀疏性提高到5倍。

o BF16 / FP32混合精度Tensor Core操作以与FP16 / FP32混合精度相同的速率运行。

o FP64 Tensor Core操作为HPC提供了前所未有的双精度处理能力，运行速度是V100 FP64 DFMA操作的2.5倍。

o 具有稀疏性的INT8 Tensor Core操作为DL推理提供了空前的处理能力，运行速度比V100 INT8操作快20倍。

· 192 KB的共享共享内存和L1数据高速缓存，比V100 SM大1.5倍。

· 新的异步复制指令将数据直接从全局内存加载到共享内存中，可以选择绕过L1缓存，不需要使用中间寄存器文件（RF）。

· 与新的异步复制指令一起使用的新的基于共享内存的屏障单元（异步屏障）。

· L2缓存管理和驻留控制的新说明。

· CUDA合作小组支持新的线程级减少指令。

· 许多可编程性方面的改进，以减少软件的复杂性。

图6比较了V100和A100 FP16 Tensor Core操作，还比较了V100 FP32，FP64和INT8标准操作与相应的A100 TF32，FP64和INT8 Tensor Core操作。吞吐量是每个GPU的总和，其中A100使用针对FP16，TF32和INT8的稀疏Tensor Core操作。左上方的图显示了两个V100 FP16 Tensor核心，因为一个V100 SM每个SM分区有两个Tensor核心，而A100 SM一个。

图6.针对不同数据类型的A100 Tensor Core操作与V100 Tensor Core和标准操作的比较。

图7. TensorFloat-32（TF32）为FP32的范围提供了FP16的精度（左）。A100使用TF32加速张量数学运算，同时支持FP32输入和输出数据（右），从而可以轻松集成到DL和HPC程序中并自动加速DL框架。

用于AI训练的默认数学是FP32，没有张量核心加速。NVIDIA Ampere架构引入了对TF32的新支持，使AI训练默认情况下可以使用张量内核，无需用户方面的努力。非张量运算继续使用FP32数据路径，TF32张量内核读取FP32数据并使用与FP32相同的范围，内部精度降低，再生成标准IEEE FP32输出。TF32包含一个8位指数（与FP32相同），10位尾数（与FP16相同的精度）和1个符号位。

与Volta一样，自动混合精度（AMP）可以将FP16与混合精度一起用于AI训练，只需几行代码更改即可。使用AMP，A100的Tensor Core性能比TF32快2倍。

总而言之，用于DL训练的NVIDIA Ampere架构数学的用户选择如下：

· 默认情况下，使用TF32 Tensor Core，不调整用户脚本。与A100上的FP32相比，吞吐量高达8倍，而与V100上的FP32相比，吞吐量高达10倍。

· FP16或BF16混合精度训练应用于最大训练速度。与TF32相比，吞吐量高达2倍，与A100上的FP32相比，吞吐量高达16倍，与V100上的FP32相比，吞吐量高达20倍。

A100 Tensor核心可加速HPC

HPC应用程序的性能需求正在迅速增长。众多科学研究领域的许多应用程序都依赖于双精度（FP64）计算。

为了满足HPC计算的快速增长的计算需求，A100 GPU支持Tensor操作，加速符合IEEE的FP64计算，提供的FP64性能是NVIDIA Tesla V100 GPU的2.5倍。

A100上新的双精度矩阵乘法加法指令，替换了V100上的八条DFMA指令，减少了指令提取，调度开销，寄存器读取，数据路径功率和共享存储器读取带宽。

A100中的每个SM总共计算64个FP64 FMA操作/时钟（或128个FP64操作/时钟），这是Tesla V100吞吐量的两倍。具有108个SM的A100 Tensor Core GPU的FP64峰值吞吐量为19.5 TFLOPS，是Tesla V100的2.5倍。

借助对这些新格式的支持，A100 Tensor Core可用于加速HPC工作负载，迭代求解器和各种新的AI算法。

	V100	A100	A100稀疏度1	A100加速	A100稀疏加速
A100 FP16和 V100 FP16	31.4 TFLOPS	78 TFLOPS	不适用	2.5倍	不适用
A100 FP16 TC和 V100 FP16 TC	125 TFLOPS	312 TFLOPS	624 TFLOPS	2.5倍	5倍
A100 BF16 TC和V100 FP16 TC	125 TFLOPS	312 TFLOPS	624 TFLOPS	2.5倍	5倍
A100 FP32和 V100 FP32	15.7 TFLOPS	19.5 TFLOPS	不适用	1.25倍	不适用
A100 TF32 TC和 V100 FP32	15.7 TFLOPS	156 TFLOPS	312 TFLOPS	10倍	20倍
A100 FP64和 V100 FP64	7.8 TFLOPS	9.7 TFLOPS	不适用	1.25倍	不适用
A100 FP64 TC和 V100 FP64	7.8 TFLOPS	19.5 TFLOPS	不适用	2.5倍	不适用
A100 INT8 TC与 V100 INT8	62 TOPS	624 TOPS	1248 TOPS	10倍	20倍
A100 INT4 TC	不适用	1248 TOPS	2496 TOPS	不适用	不适用
A100二进制TC	不适用	4992 TOPS	不适用	不适用	不适用

表2. A100在V100上的提速（TC = Tensor Core，GPU以各自的时钟速度）。

1）使用新的稀疏功能实现有效的TOPS / TFLOPS

A100引入了细粒度的结构化稀疏性

借助A100 GPU，NVIDIA引入了细粒度的结构稀疏性，这是一种新颖的方法，可将深度神经网络的计算吞吐量提高一倍。

深度学习中可能会出现稀疏性，各个权重的重要性会在学习过程中演变，网络训练结束时，只有权重的一个子集在确定学习的输出时获得了有意义的目的。不再需要其余的权重。

细粒度的结构化稀疏性，对允许的稀疏性模式施加了约束，使硬件更有效地执行输入操作数的必要对齐。由于深度学习网络能够在训练过程中根据训练反馈调整权重，NVIDIA工程师通常发现结构约束不会影响训练网络进行推理的准确性，可以推断出具有稀疏性的加速。

对于训练加速，需要在过程的早期引入稀疏性，提供性能优势，在不损失准确性的情况下，进行训练加速的方法是一个活跃的研究领域。

稀疏矩阵定义

通过新的2：4稀疏矩阵定义强制执行结构，在每个四项向量中允许两个非零值。A100在行上支持2：4的结构化稀疏性，如图9所示。

由于矩阵的定义明确，可以对其进行有效压缩，将内存存储量和带宽减少近2倍。

图9. A100细粒度的结构化稀疏修剪训练了权重，其中有2选4的非零模式，然后是用于微调非零权重的简单通用配方。权重经过压缩，可将数据占用空间和带宽减少2倍，而A100稀疏Tensor Core通过跳过零，将数学吞吐量提高了一倍。

NVIDIA开发了一种简单而通用的配方，用于使用这种2：4结构化的稀疏模式，稀疏深度神经网络以进行推理。使用密集权重对网络进行训练，应用细粒度的结构化修剪，使用其它训练步骤，对剩余的非零权重进行微调。基于跨视觉，对象检测，分割，自然语言建模和翻译的数十个网络的评估，几乎不会导致推理准确性的损失。

A100 Tensor Core GPU包括新的Sparse Tensor Core指令，跳过具有零值的条目的计算，从而使Tensor Core计算吞吐量翻倍。图9示出了张量核心是如何使用压缩元数据（非零索引），配合适当选择激活压缩权重，输入到张量核心点积计算。

结合了L1数据缓存和共享内存

NVIDIA在L1数据高速缓存和共享内存子系统体系结构，首次引入NVIDIA Tesla V100，显着提高性能的同时，简化了编程并减少了达到或接近峰值应用程序性能所需的调整。将数据缓存和共享内存功能组合到单个内存块中，可为两种类型的内存访问提供最佳的整体性能。

L1数据高速缓存和共享内存的总容量，在A100中为192 KB / SM，在V100中为128 KB / SM。

同时执行FP32和INT32操作

与V100和Turing GPU相似，A100 SM包括独立的FP32和INT32内核，全吞吐量同时执行FP32和INT32操作，提高了指令发布的吞吐量。

许多应用程序具有执行指针算术（整数存储器地址计算）和浮点计算相结合的内部循环，得益于同时执行FP32和INT32指令。流水线循环的每个迭代，都可以更新地址（INT32指针算术），并为下一个迭代加载数据，在FP32中处理当前迭代。

A100 HBM2 DRAM子系统

随着HPC，AI和分析数据集的不断增长，寻找解决方案的问题变得越来越复杂，必须具有更大的GPU内存容量和更高的内存带宽。

Tesla P100是世界上第一个支持高带宽HBM2内存技术的GPU架构， Tesla V100提供了更快，更高效和更高容量的HBM2实现。A100再次提高了HBM2的性能和容量标准。

HBM2内存由与GPU处于同一物理封装上的内存堆栈组成，与传统的GDDR5 / 6内存设计相比，可节省大量功率和面积，从而可在系统中安装更多GPU。

A100 GPU的SXM4型电路板上包括40 GB的快速HBM2 DRAM内存。存储器被组织为五个活动HBM2堆栈，每个堆栈具有八个内存管芯。A100 HBM2的数据速率为1215 MHz（DDR），提供1555 GB /秒的内存带宽，比V100内存带宽高1.7倍以上。

ECC内存弹性

A100 HBM2内存子系统，支持单错误纠正双错误检测（SECDED）错误纠正代码（ECC），保护数据。ECC为对数据损坏敏感的计算应用程序，提供了更高的可靠性。在GPU处理大型数据集，或长时间运行应用程序的大规模集群计算环境中，这一点尤其重要。A100中的其它关键存储器结构也受到SECDED ECC的保护，包括L2缓存和L1缓存以及所有SM内的寄存器文件。

A100 L2快取

A100 GPU包含40 MB的L2缓存，比V100 L2缓存大6.7倍.L2缓存分为两个分区，实现更高的带宽和更低的延迟内存访问。每个L2分区都将本地化和缓存数据，供直接连接到该分区的GPC中的SM进行内存访问。这种结构使A100的L2带宽增加了V100的2.3倍。硬件缓存一致性在整个GPU上维护CUDA编程模型，应用程序会自动利用新L2缓存的带宽和延迟优势。

L2缓存是GPC和SM的共享资源，位于GPC之外。A100 L2缓存大小的大幅增加显着改善了许多HPC和AI工作负载的性能，可以缓存数据集和模型的大部分并以比读取和写入HBM2内存更高的速度，重复访问这些数据集和模型。受DRAM带宽限制的某些工作负载，受益于更大的L2缓存，例如使用小批量的深度神经网络。

为了优化容量利用率，NVIDIA Ampere体系结构提供了L2缓存驻留控件，管理要保留或从缓存中逐出的数据。可以预留一部分L2缓存用于持久性数据访问。

例如，对于DL推理工作负载，乒乓缓冲区可以持久地缓存在L2中，实现更快的数据访问，同时还避免了回写到DRAM。对于生产者-消费者链，例如在DL训练中发现的链，L2缓存控件可以优化跨写到读数据依赖项的缓存。在LSTM网络中，循环权重可以优先在L2中缓存和重用。

NVIDIA Ampere体系结构增加了计算数据压缩功能，加速非结构化稀疏性和其他可压缩数据模式。L2中的压缩功能使DRAM读/写带宽提高了4倍，L2读带宽提高了4倍，L2容量提高了2倍。

数据中心GPU	NVIDIA Tesla P100	NVIDIA Tesla V100	NVIDIA A100
GPU代号	GP100	GV100	GA100
GPU架构	NVIDIA Pascal	NVIDIA Volta	NVIDIA安培
GPU板尺寸	SXM	SXM2	SXM4
短信	56	80	108
TPC	28岁	40	54
FP32核心/ SM	64	64	64
FP32核心/ GPU	3584	5120	6912
FP64核心/ SM	32	32	32
FP64核心/ GPU	1792	2560	3456
INT32内核/ SM	不适用	64	64
INT32核心/ GPU	不适用	5120	6912
张量芯/ SM	不适用	8	4 2
张量核心/ GPU	不适用	640	432
GPU加速时钟	1480兆赫	1530兆赫	1410兆赫
FP16的峰值FP16张量TFLOPS累计1	不适用	125	312/624 3
带有FP32的FP16峰值Tensor TFLOPS累加1	不适用	125	312/624 3
带FP32的BF16张量TFLOPS峰值累加1	不适用	不适用	312/624 3
峰值TF32张量TFLOPS 1	不适用	不适用	156/312 3
峰值FP64 Tensor TFLOPS 1	不适用	不适用	19.5
峰值INT8张量TOPS 1	不适用	不适用	624/1248 3
峰值INT4张量TOPS 1	不适用	不适用	1248/2496 3
峰值FP16 TFLOPS 1	21.2	31.4	78
峰值BF16 TFLOPS 1	不适用	不适用	39
峰值FP32 TFLOPS 1	10.6	15.7	19.5
峰值FP64 TFLOPS 1	5.3	7.8	9.7
峰值INT32 TOPS 1,4	不适用	15.7	19.5
纹理单位	224	320	432
记忆体介面	4096位HBM2	4096位HBM2	5120位HBM2
记忆体大小	16 GB	32 GB / 16 GB	40 GB
内存数据速率	703 MHz DDR	877.5 MHz DDR	1215 MHz DDR
记忆体频宽	720 GB /秒	900 GB /秒	1555 GB /秒
L2快取大小	4096 KB	6144 KB	40960 KB
共享内存大小/ SM	64 KB	最多可配置96 KB	最多可配置164 KB
注册文件大小/ SM	256 KB	256 KB	256 KB
注册文件大小/ GPU	14336 KB	20480 KB	27648 KB
贸易发展计划	300瓦	300瓦	400瓦
晶体管	153亿	211亿	542亿
GPU晶粒尺寸	610平方毫米	815平方毫米	826平方毫米
台积电制造工艺	16纳米FinFET +	12 nm FFN	7纳米N7

表3. NVIDIA数据中心GPU的比较。

1）峰值速率基于GPU增强时钟。

2）A100 SM中的四个Tensor核心具有GV100 SM中八个Tensor核心的原始FMA计算能力的2倍。

3）使用新的稀疏性功能有效的TOPS / TFLOPS。

4）TOPS =基于IMAD的整数数学

注意：由于A100 Tensor Core GPU设计，安装在高性能服务器和数据中心机架中，为AI和HPC计算工作量提供动力，因此，不包括显示连接器，用于光线追踪加速的NVIDIA RT Core或NVENC编码器。

计算能力

A100 GPU支持新的计算功能8.0。表4比较了NVIDIA GPU架构的不同计算功能的参数。

数据中心GPU	NVIDIA Tesla P100	NVIDIA Tesla V100	NVIDIA A100
GPU代号	GP100	GV100	GA100
GPU架构	NVIDIA Pascal	NVIDIA Volta	NVIDIA安培
计算能力	6.0	7.0	8.0
线/经线	32	32	32
最大翘曲度/ SM	64	64	64
最大线程数/ SM	2048	2048	2048
最大线程块/ SM	32	32	32
最多32位寄存器/ SM	65536	65536	65536
最大寄存器/块	65536	65536	65536
最大寄存器/线程	255	255	255
最大螺纹块尺寸	1024	1024	1024
FP32核心/ SM	64	64	64
SM寄存器与FP32内核的比率	1024	1024	1024
共享内存大小/ SM	64 KB	最多可配置96 KB	最多可配置164 KB

表4.计算能力：GP100 vs. GV100 vs. GA100。

MIG架构

尽管许多数据中心的工作量在规模和复杂性上都在继续扩展，某些加速任务的要求却不高，例如早期开发或推断小批量的简单模型。数据中心经理的目标，保持较高的资源利用率，因此，理想的数据中心加速器不仅会变大，有效地加速许多较小的工作负载。

新的MIG功能可以将每个A100划分为多达七个GPU实例，实现最佳利用率，有效地扩展对每个用户和应用程序的访问权限。

图10显示了Volta MPS如何允许多个应用程序在单独的GPU执行资源（SM）上同时执行。但是，由于内存系统资源是在所有应用程序之间共享的，因此，如果一个应用程序对DRAM带宽有很高的要求，或者超额预订了L2高速缓存，应用程序可能会干扰其他应用程序。

图11中所示的A100 GPU新的MIG功能可以将单个GPU划分为多个GPU分区，称为GPU实例。每个实例的SM具有贯穿整个内存系统的单独且隔离的路径-片上交叉开关端口，L2缓存库，内存控制器和DRAM地址总线，唯一地分配给单个实例。这样可以确保单个用户的工作负载，可预测的吞吐量和延迟运行，具有相同的二级缓存分配和DRAM带宽，即使其它任务正在破坏自己的缓存或使DRAM接口饱和也是如此。

使用此功能，MIG可以对可用的GPU计算资源进行分区，为不同的客户端（例如VM，容器，进程等）提供故障隔离，提供定义的服务质量（ QoS）。使多个GPU实例可以在单个物理A100 GPU上并行运行。MIG还保持CUDA编程模型不变，最大程度地减少编程工作量。

CSP可以使用MIG提高其GPU服务器的利用率，无需额外成本，即可提供多达7倍的GPU实例。MIG支持CSP所需的必要QoS和隔离保证，确保一个客户端（VM，容器，进程）不会影响另一客户端的工作或调度。

CSP通常根据客户使用模式，对硬

件进行分区。当硬件资源在运行时，提供一致的带宽，适当的隔离和良好的性能时，有效分区才有效。

借助基于NVIDIA Ampere架构的GPU，可以在其新的虚拟GPU实例上查看和调度作业，像物理GPU一样。MIG可与Linux操作系统及其管理程序一起使用。用户可以使用诸如Docker Engine之类的运行时，运行带有MIG的容器，很快将支持使用Kubernetes进行容器编排。

图10.CSP多用户节点（A100之前的版本）。加速的GPU实例仅在完全物理GPU粒度下，供不同组织中的用户使用，即使用户应用程序不需要完整的GPU也是如此。

图11.具有MIG的CSP多用户图。来自同一组织或不同组织的多个独立用户，在单个物理GPU中分配专用，受保护和隔离的GPU实例。

错误和故障检测，隔离和控制

通过检测，包含并经常纠正错误和故障，不是强制GPU重置来提高GPU的正常运行时间和可用性至关重要。在大型，多GPU群集和单GPU，多租户环境（例如MIG配置）中尤其重要。

NVIDIA Ampere架构A100 GPU包括新技术，可改善错误/故障归因（归因于导致错误的应用程序），隔离（隔离有故障的应用程序，不会影响在同一GPU或GPU群集中运行的其他应用程序），限制（确保一个应用程序中的错误不会泄漏并影响其他应用程序）。这些故障处理技术对于MIG环境尤其重要，确保共享单个GPU的客户端之间的适当隔离和安全性。

连接NVLink的GPU现在具有更强大的错误检测和恢复功能。远程GPU上的页面错误会通过NVLink发送回源GPU。远程访问故障通信是大型GPU计算群集的一项关键弹性功能，有助于确保一个进程或VM中的故障，不会导致其它进程或VM停机。

A100 GPU包括其他几个新的和改进的硬件功能，可以增强应用程序性能。

CUDA 11在NVIDIA Ampere架构GPU方面的进步

在NVIDIA CUDA并行计算平台上构建了成千上万个GPU加速的应用程序。CUDA的灵活性和可编程性使其成为研究和部署新的DL和并行计算算法的首选平台。

NVIDIA Ampere架构GPU旨在提高GPU的可编程性和性能，降低软件复杂性。NVIDIA Ampere架构的GPU和CUDA编程模型的改进，加快程序执行速度，降低许多操作的延迟和开销。

CUDA 11的新功能为第三代Tensor核心，稀疏性，CUDA图形，多实例GPU，L2缓存驻留控件以及NVIDIA Ampere架构，一些新功能提供了编程和API支持。

结论

NVIDIA的使命，加速时代的达芬奇和爱因斯坦的工作。科学家，研究人员和工程师致力于使用高性能计算（HPC）和AI解决全球最重要的科学，工业和大数据挑战。

NVIDIA A100 Tensor Core GPU，在我加速数据中心平台中实现了下一个巨大飞跃，可在任何规模上提供无与伦比的加速性能，使这些创新者能够终其一生。A100支持众多应用领域，包括HPC，基因组学，5G，渲染，深度学习，数据分析，数据科学和机器人技术。

推进当今最重要的HPC和AI应用程序-个性化医学，对话式AI和深度推荐系统-要求研究人员变得更大。A100为NVIDIA数据中心平台提供动力，包括Mellanox HDR InfiniBand，NVSwitch，NVIDIA HGX A100和Magnum IO SDK，进行扩展。这个集成的技术团队，有效地扩展到成千上万个GPU，以前所未有的速度训练最复杂的AI网络。

A100 GPU的新MIG功能，将每个A100划分为多达七个GPU加速器，实现最佳利用率，有效地提高GPU资源利用率，以及GPU对更多用户和GPU加速应用程序的访问。借助A100的多功能性，基础架构管理人员，可以最大化其数据中心中每个GPU的效用，满足从最小的工作到最大的多节点工作负载的不同规模的性能需求。

发布于 2021-04-30 11:29

图形处理器（GPU）

高性能计算

NVIDIA（英伟达）

NVIDIA深度架构

推出NVIDIA A100 Tensor Core GPU

主要特征

A100 GPU流式多处理器

40 GB HBM2和40 MB L2缓存

多实例GPU

第三代NVIDIA NVLink

支持NVIDIA Magnum IO和Mellanox互连解决方案

具有SR-IOV的PCIe Gen 4

改进的错误和故障检测，隔离和控制

异步复制

异步屏障

任务图加速

A100 GPU硬件架构

A100 SM架构

A100 Tensor核心可加速HPC

A100引入了细粒度的结构化稀疏性

稀疏矩阵定义

结合了L1数据缓存和共享内存

同时执行FP32和INT32操作

A100 HBM2 DRAM子系统

ECC内存弹性

A100 L2快取

计算能力

CUDA 11在NVIDIA Ampere架构GPU方面的进步

结论

文章被以下专栏收录

GPU编程与优化实践