RTX 3090 AI性能实测：FP32训练速度提升50%，张量核心缩水

2020 年 10 月 3 日 量子位

晓查发自凹非寺
量子位报道 | 公众号 QbitAI

NVIDIA最近发布了备受期待的RTX 30系列显卡。

其中，性能最强大的RTX 3090具有24GB显存和10496个CUDA核心。而2018年推出的旗舰显卡Titan RTX同样具有24GB显存。

	Titan RTX	RTX 3090
架构	图灵TU102	安培GA102
CUDA核心	4609	10496
张量核心	576	328
显存	24GB	24GB
显存带宽	672GB/s	936GB/s
TDP	285W	350W

RTX 3090在深度学习训练任务中，性能表现究竟如何，它能否取代Titan RTX成为最强消费级AI训练卡？现在已经有了答案。

国外两位AI从业者在拿到这款显卡后，第一时间测试了其在TensorFlow上的AI训练性能。

由于RTX 3090现阶段不能很好地支持TensorFlow 2，因此先在TensorFlow 1.15上进行测试。

话不多说，先看数据。在FP32任务上，RTX 3090每秒可处理561张图片，Titan RTX每秒可处理373张图片，性能提升50.4%！

而在FP16任务上，RTX 3090每秒可处理1163张图片，Titan RTX每秒可处理1082张图片，性能仅提升7.5%。

为何在FP32任务上的性能提升比在FP16上更明显，主要是因为RTX 3090大大提高了CUDA核心的数量。但是用于处理FP16的张量核心数量明显减少，这可能会影响FP16性能。

即便如此，张量核心更少的RTX 3090在很多FP16任务上，性能依然有小幅提升。

随后，英伟达官方提供了支持RTX 3090的CUDA 11.1，谷歌官方在TensorFlow nightly版中提供了对最新显卡的支持。

又有用户再次测试了两款显卡的性能对比。

	FP16		FP32
	Titan RTX	RTX 3090	Titan RTX	RTX 3090
AlexNet	6634	8255	4448	6493
Inception3	656.1	616.3	223	337.3
Inception4	298.1	132.7	99.74	143.7
ResNet152	423.9	484	134.5	203.6
ResNet150	966.8	1260	336	525.9
VGG16	339.7	442.5	212.1	325.6

△ 训练性能：每秒处理的图片数量

可以看出，使用FP32进行的所有模型训练，RTX 3090都能实现40%~60%的训练提升。而大多数模型的FP16训练速度几乎不变，最多提升20%，甚至在Inception模型上还有所下降。

只能说RTX 3090在张量核心上的“刀法”颇为精准，如果你对FP16训练性能有较高要求，也许可以等待今后的升级版。

不过RTX 3090上市价格仅1499美元，比Titan RTX便宜1000美元，仍不失为“性价比”之选。

参考链接：

https://www.pugetsystems.com/labs/hpc/RTX3090-TensorFlow-NAMD-and-HPCG-Performance-on-Linux-Preliminary-1902/

https://www.evolution.ai/post/benchmarking-deep-learning-workloads-with-tensorflow-on-the-nvidia-geforce-rtx-3090

— 完 —

本文系网易新闻•网易号特色内容激励计划签约账号【量子位】原创内容，未经账号授权，禁止随意转载。

榜单征集！7大奖项锁定AI TOP企业

「2020中国人工智能年度评选」正式启幕！将从公司、人物、产品、社区四大维度共7个奖项寻找优秀的AI企业，欢迎大家扫码报名参与。

榜单将于12月揭晓，也期待与百万从业者们，共同见证这些优秀企业的荣誉！

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见~

登录查看更多

相关内容

CUDA

关注 20

【NeurIPS 2020】耶鲁大学等提出「AdaBelief」的新型优化器，速度快，训练稳，泛化强

专知会员服务

18+阅读 · 2020年10月19日

无需额外数据、Tricks、架构调整，CMU开源首个将ResNet50精度提升至80%+新方法

专知会员服务

14+阅读 · 2020年9月20日

【ICML2020-DeepMind】小数据，大决策:小数据模式下的模型选择

专知会员服务

37+阅读 · 2020年9月14日

【伯克利尤洋博士论文】《快速机器学习训练算法》189页pdf

专知会员服务

54+阅读 · 2020年8月4日

【Hinton新论文】SimCLRv2来了！提出蒸馏新思路，可迁移至小模型，性能精度超越有监督

专知会员服务

41+阅读 · 2020年7月21日

【ICML2020-伯克利】反直觉！大模型重压缩提升Transformer的训练和推理效率，47页ppt

专知会员服务

70+阅读 · 2020年7月1日

【伯克利】自回归模型的局部掩卷积，Locally Masked Convolution for Autoregressive Models

专知会员服务

20+阅读 · 2020年6月23日

【阿里巴巴达摩院】TResNet: 高性能的GPU专用架构，GPU-Dedicated Architecture

专知会员服务

33+阅读 · 2020年4月1日

【ICLR2020-谷歌】用“复合散度”量化模型合成泛化能力

专知会员服务

20+阅读 · 2020年3月29日

深度学习用于新冠肺炎CT诊断表现如何？武大人民医院medRxiv论文揭示：诊断性能比肩医师，而用时少，大有可为

专知会员服务

26+阅读 · 2020年2月29日

通过集成 XNNPACK 实现推理速度飞跃

TensorFlow

26+阅读 · 2020年7月30日

谷歌ALBERT模型V2+中文版来了：之前刷新NLP各大基准，现在GitHub热榜第二

量子位

14+阅读 · 2020年1月2日

大幅减少训练迭代次数，提高泛化能力：IBM提出「新版Dropout」

机器之心

5+阅读 · 2019年6月7日

Colab 免费提供 Tesla T4 GPU，是时候薅羊毛了

机器之心

10+阅读 · 2019年4月25日

BERT霸榜问答任务，谷歌新基准模型缩小AI与人类差距50%

未来产业促进会

4+阅读 · 2019年1月31日

首个Titan RTX深度学习评测结果出炉：2019年你该选择哪款GPU？

机器之心

8+阅读 · 2018年12月30日

2080Ti后，深度学习该选什么显卡？（补充RTX2070测评）

论智

94+阅读 · 2018年11月14日

TensorFlow GPU基准测试：2080 Ti vs V100 vs 1080 Ti vs Titan V

论智

12+阅读 · 2018年10月14日

学界 | 多 GPU 加速学习，这是一份崭新的 XGBoost 库

机器之心

3+阅读 · 2018年7月8日

前端高性能计算（4）：GPU加速计算

前端大全

7+阅读 · 2017年10月26日

ResPerfNet: Deep Residual Learning for Regressional Performance Modeling of Deep Neural Networks

Arxiv

0+阅读 · 2020年12月3日

Performance Assessment of OpenMP Compilers Targeting NVIDIA V100 GPUs

Arxiv

0+阅读 · 2020年12月2日

Proceedings of the Eleventh International Workshop on Graph Computation Models

Arxiv

0+阅读 · 2020年12月2日

Communication-Efficient Federated Distillation

Arxiv

0+阅读 · 2020年12月1日

Short-Term Load Forecasting using Bi-directional Sequential Models and Feature Engineering for Small Datasets

Arxiv

0+阅读 · 2020年11月28日

Fast AutoAugment

Arxiv

5+阅读 · 2019年5月1日

SFA: Small Faces Attention Face Detector

Arxiv

4+阅读 · 2018年12月20日

Federated Learning for Mobile Keyboard Prediction

Arxiv

5+阅读 · 2018年11月8日

Sockeye: A Toolkit for Neural Machine Translation

Arxiv

7+阅读 · 2018年6月1日

HONE: Higher-Order Network Embeddings

Arxiv

12+阅读 · 2018年1月28日

VIP会员