炼个BERT别人花几分钟你花了快1天？谷歌：我这是4810亿参数的巨型BERT

会员服务 ·

炼个BERT别人花几分钟你花了快1天？谷歌：我这是4810亿参数的巨型BERT

2021 年 12 月 3 日 量子位

丰色发自凹非寺
量子位报道 | 公众号 QbitAI

机器学习领域权威“跑分”MLPerf v1.1训练榜单已出炉。

这次，在BERT模型的成绩表上有一个“异常”的数字：1196.638（分钟），来自谷歌。

怎么？谷歌训练一个BERT要接近1天，别家都只要几分钟？

NONONO！

这其实是谷歌从未透露的巨型版本BERT，参数规模有4810亿，不是别人只有几亿参数那种的BERT。

它也是谷歌今年在MLPerf“非标准区”提交的一个作品：

一共花了2048块TPUv4，约20小时训练而成！

△ TPUv4芯片机架，谷歌数据中心

有史以来最大版本的BERT

标准BERT模型（BERT Large）参数规模只有3.4亿，而此次4810亿的巨型BERT是有史以来最大的一个版本。

这俩之间直接差了好几个数量级。

而谷歌表示，训练大型模型正是公司的“重中之重”（主要用于云服务）。

所以此次他们根本没有参加任何标准分区里的跑分评比，只在非标准区“释放了自我”。

MLPerf竞赛有俩分区：

Closed区也就是标准区，参赛商在ResNet-50等规定模型上跑分；

Open区也就是非标准区，参赛商可以尝试任何规定以外的模型和方法来达到目标性能。

在大多数参赛商都“挤”在标准区训练小规模的模型时，谷歌员工“凡尔赛”道：

“在短短几秒内‘豪掷’4000块芯片来训练巨型BERT才是真的酷（爽）。”

谷歌由此也希望MLPerf基准测试能引进更多的大模型，因为他们觉得现实中才不会像非标准区的参赛作品那样用那么多芯片来训练那么小的模型。

而此次的巨型BERT性能也不赖，它的预测准确率为75%，比MLPerf要求的72.2%要高。

同时，和标准区其他参赛商一样，谷歌也用较少的文本数据样本来达到目标精度。

具体来说，标准区要求一个程序使用近5亿个token序列进行训练，每个序列的长度大多为128个token。

而Google只使用了大约2000万个序列，不过每个序列的长度为512token。

另外，完成这次工作的2048块TPU系统一开始也是为了迎合公司的生产和研发需要，所以它并未“束之高阁”——目前已用于Google Cloud服务。

英伟达在标准区“战绩显赫”

其余MLPerf结果，主要在“标准区”，一如既往，英伟达战绩最高。

比如它使用最新一代GPU A100的系统在训练ResNet-50花费的时间上包揽前四，其中最快只需21秒——比今年6月24秒的最高成绩还快。

当然，此战绩一共花了4320个A100，在1080个AMD的EPYC x86处理器的帮助下并行完成。

但在不拼芯片和主机处理器的情况下，竞争对手可就碾压起英伟达了。

其中英特尔Habana用256个Gaudi加速芯片，只需3.4分钟就训练好ResNet-50。

Graphcore则只需3.8分钟，用了256块IPU加速器芯片和32块AMD EPYC主机处理器。

英伟达在配备16个EPYC处理器的64路A100系统下，花了4.5分钟。

打败了英伟达的Graphcore，则强调自己最看重性能和成本之间的平衡。

就比如Graphcore在16路系统上训练ResNet-50耗费28分钟，比英伟达DGX A100系统快一分钟，但他们用到的POD-16是DGXA100成本的一半。

此次参赛的其他厂商中，三星在电子训练普通版BERT的速度上获得了第二名，仅为25秒。花了256个AMD芯片和1024个英伟达A100。

微软的Azure云服务首次参赛，它使用192个AMD EPYC处理器和768个A100在医疗数据上训练图像分割模型获得了最高分。

同时Azure也表示后续也会像谷歌那样在非标准区提交一些成绩，虽然微软和英伟达在此前不久发布了目前最大的模型“威震天-图灵”，但他们表示：

许多公司希望将人工智能用于专一目的，而非需要4000块芯片才能运行的巨型语言模型。

更多评分结果大家可以参考官网数据。

榜单地址：
https://mlcommons.org/en/news/mlperf-training-v11/

参考链接：
https://www.zdnet.com/article/google-uses-mlperf-competition-to-showcase-performance-on-gigantic-version-of-bert-language-model/

— 完 —

本文系网易新闻•网易号特色内容激励计划签约账号【量子位】原创内容，未经账号授权，禁止随意转载。

2021人工智能年度评选结果揭晓

「2021年度人工智能最具价值创业公司TOP20」榜单中，有垂直领域AI落地实战中的后发先至者，亦有换道超车、在AI发展新赛道中一骑当先的行业开拓者。相同的一点是，它们都在近一年内取得了重大的技术创新和研发成果，受到资本市场热捧、外界舆论瞩目。

AI商业竞争的红海之中，这些公司作为中国AI最具活力的新鲜血液，正以后发优势，开拓出新的蓝海：

p.s.点击图片/链接查看完整榜单：2021人工智能年度评选结果揭晓！AI落地最佳参考在此奉上

点这里👇关注我，记得标星哦～

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见~

登录查看更多

相关内容

BERT

关注 101

BERT全称Bidirectional Encoder Representations from Transformers，是预训练语言表示的方法，可以在大型文本语料库（如维基百科）上训练通用的“语言理解”模型，然后将该模型用于下游NLP任务，比如机器翻译、问答。

【ICML2021】蛋白质语言模型-MSA Transformer

专知会员服务

34+阅读 · 2021年8月16日

Transformer！「预训练变换器文本排序」首篇综述书，155页pdf概述BERT类模型文本检索进展

专知会员服务

69+阅读 · 2021年3月18日

少即是多？非参数语言模型，68页ppt

专知会员服务

24+阅读 · 2020年11月22日

【NeurIPS 2020】融入BERT到并行序列模型

专知会员服务

26+阅读 · 2020年10月15日

【Contextual Embedding】什么时候上下文嵌入值得使用?

专知会员服务

16+阅读 · 2020年8月2日

1750亿参数！GPT-3来了！31位作者，OpenAI发布小样本学习器语言模型

专知会员服务

73+阅读 · 2020年5月30日

Google BERT作者Jacob斯坦福亲授《上下文词向量与预训练语言模型: BERT到T5》43页ppt

专知会员服务

91+阅读 · 2020年4月6日

Facebook AI何恺明等最新研究MoCo(动量对比学习)第二版，超越Hinton的SimCLR，刷新ImageNet准确率

专知会员服务

36+阅读 · 2020年3月11日

谷歌提出“T5” 新NLP模型，突破迁移学习局限，多基准测试达SOTA！

专知会员服务

41+阅读 · 2020年2月26日

BERT进展2019四篇必读论文

专知会员服务

69+阅读 · 2020年1月2日

最高花费1700万美元，这是租卡训练谷歌5400亿参数PaLM的成本

机器之心

0+阅读 · 2022年4月9日

语言模型参数越多越好？DeepMind用700亿打败自家2800亿，训练优化出「小」模型

机器之心

0+阅读 · 2022年4月3日

AI训练的效率正在超越摩尔定律

AI前线

0+阅读 · 2022年2月23日

Meta揭幕全球最快AI超算：目标一天之内训练万亿参数大模型

机器之心

0+阅读 · 2022年1月25日

2天训练出15亿参数大模型，国产开源项目力克英伟达Megatron-LM，来自LAMB作者团队

量子位

0+阅读 · 2022年1月20日

128张GPU炼出中国版AlphaFold2：训练代码全开源，打开浏览器就可体验，北大元培系AI公司打造

量子位

0+阅读 · 2021年12月13日

谷歌让NLP模型也能debug，只要给一张「草稿纸」就行

量子位

0+阅读 · 2021年12月4日

5300亿！巨型语言模型参数每年暴涨10倍，新「摩尔定律」要来了？

新智元

0+阅读 · 2021年10月27日

逆天语言模型GPT-2最新开源：345M预训练模型和1.5B参数都来了

量子位

18+阅读 · 2019年5月4日

3分钟看懂史上最强NLP模型BERT

新智元

23+阅读 · 2019年2月27日

针对S芯片验证模块引脚信息的自动分析技术

国家自然科学基金

0+阅读 · 2015年12月31日

神经形态系统的通用学习算法及其电路与光学实现

国家自然科学基金

1+阅读 · 2014年12月31日

缓冲区长度有限的平行机在线调度模型及算法分析

国家自然科学基金

0+阅读 · 2013年12月31日

深空太阳天文台相关跟踪器集成化建模与仿真研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于GPU集群层次式并行计算的3D芯片电热综合分析与综合优化

国家自然科学基金

0+阅读 · 2012年12月31日

超大规模集成电路仿真验证中的模型降阶及稀疏表示

国家自然科学基金

0+阅读 · 2012年12月31日

增量协同过滤模型研究

国家自然科学基金

0+阅读 · 2012年12月31日

微重力液-液两相流的数值模拟及其并行计算技术研究

国家自然科学基金

1+阅读 · 2011年12月31日

超大规模集成电路多目标划分的算法研究

国家自然科学基金

2+阅读 · 2010年12月31日

排序问题的博弈分析和多目标排序

国家自然科学基金

1+阅读 · 2009年12月31日

Signal in Noise: Exploring Meaning Encoded in Random Character Sequences with Character-Aware Language Models

Arxiv

0+阅读 · 2022年4月20日

Multimodal Token Fusion for Vision Transformers

Arxiv

3+阅读 · 2022年4月19日

Dynamic Position Encoding for Transformers

Arxiv

1+阅读 · 2022年4月18日

Continual Hippocampus Segmentation with Transformers

Arxiv

0+阅读 · 2022年4月17日

LaMemo: Language Modeling with Look-Ahead Memory

Arxiv

0+阅读 · 2022年4月15日

Attention Mechanisms in Computer Vision: A Survey

Arxiv

58+阅读 · 2021年11月15日

A Survey of Transformers

Arxiv

103+阅读 · 2021年6月8日

Transformer Tracking

Arxiv

17+阅读 · 2021年3月29日

A Primer in BERTology: What we know about how BERT works

Arxiv

34+阅读 · 2020年2月27日

Pre-Training with Whole Word Masking for Chinese BERT

Arxiv

11+阅读 · 2019年6月19日

VIP会员