会员服务 ·

想复现谷歌5400亿参数的PaLM模型？测算租卡最少花1000万美元！

2022 年 4 月 18 日 新智元

新智元报道

编辑：LRS

【新智元导读】最近有研究人员测算，租卡训练一次谷歌PaLM模型的话，光计算成本就达上千万美元了，还不包括数据、测试的开销等，并且租GPU还比TPU划算一些。

最近谷歌的PaLM语言模型横空出世，接连打破多项自然语言处理任务的sota，这个拥有5400亿参数的Transformer语言模型再次证明了「大力出奇迹」。

论文地址：https://storage.googleapis.com/pathways-language-model/PaLM-paper.pdf

除了用到强大的Pathways系统外，论文中介绍PaLM的训练用到了6144个TPU v4，使用了7800亿token的高质量数据集，并且其中有一定比例的非英文多语种语料。

一个字，就是「贵」

如果真的想复现一遍训练过程的话，到底需要花多少钱？

有研究人员最近估算了一下成本，一个简短的答案是：大概需要900万-1700万美元。

如果其他模型用作对比的话：BERT 训练成本 1.2 万美元、GPT-2 训练成本 4.3 万美元、XLNet 训练成本 6.1 万美元，110 亿参数的谷歌T5模型单次训练成本预估130万美元。

需要注意的是，训练成本并非一成不变，硬件改进、更先进的参数优化措施都可以降低训练成本。不过，即使训练成本大幅降低，但收集、清洗如此大规模的数据，也远远不是「穷博士」和「小公司」能够负担得起的。

训练成本的摩尔定律

训练机器学习模型的计算量一直在不断飙升，需要采购的计算资源也大幅提升。

计算、数据和算法的进步是指导现代机器学习取得进展的三个基本因素，其中计算是最容易量化的，所以计算训练成本通常就是看模型训练所需的计算量。

有研究人员曾做过调研，在2010年之前，训练里程碑式的机器学习模型大体符合「摩尔定律」，大约20个月计算量翻一番。

但2010年初深度学习出现以后，训练所需的计算量大幅提升，大约6个月就要翻一番。

到了2015年末，一个新的趋势是预训练大模型，由公司主导开发的大规模机器学习模型，对训练计算的要求提高了10-100倍。

这三个时间段也被划分为前深度学习时代、深度学习时代和大规模时代。

论文地址：https://arxiv.org/pdf/2202.05924.pdf

回到PaLM模型，可以看到5400亿的参数量，让PaLM攀到了计算山峰之巅。

根据论文中提供的训练计算数据，可以看到PaLM最终训练所需的计算数为2.56e24个FLOPs

如果以1750亿参数的GPT-3所需的计算FLOPs作为基本单位，那PaLM所需成本就是GPT-3的十倍。

论文中还提到，PaLM在6144个TPU v4芯片上训练了1200小时，在3072个TPU v4芯片上训练了336小时，其中包括一些停机时间和重复步骤。

每个TPU v4有两个核心，所以总共需要16809984个TPU v4核心小时数，也就是1917.7年。

此外，论文的附录B中提到了TPU的利用率问题。540B的模型训练使用了rematerialization技术，在相同batch size情况下取得更高的吞吐量。如果不考虑rematerialization成本，在没有自注意力情况下，FLOPs的利用率为45.7%，而PaLM分析计算硬件FLOPs用上rematerialization的利用率为57.8%

所以现在有两种方式来估算训练成本：

1. 以2.56×10²⁴ FLOPs来计算训练成本，我们可以估算出租用TPU实例的每FLOP成本，也可以通过提取其他云供应商（例如使用NVIDIA A100的云供应商）的每FLOP成本来估计成本。

2. 按照使用8404992 个TPU 小时数来计算，然后查询TPU芯片的每小时租金。