浅析人类最贵、最大的机器学习模型GPT-3及背后隐含的商业逻辑

2020 年 8 月 5 日 凡人机器学习

GPT-3一诞生就成了业内议论的焦点，因为这个模型大概是目前人类历史上最大且最贵的机器学习模型。

究竟有多大呢，这个模型有1750亿余个参数，虽然OpenAI没有开源这个pre-train的模型，但是可以预估模型体积在700G左右。这是什么概念，就是假设OpenAI把这个模型放出来开放下载，也很少有机构有能力让这个模型serving起来。

那这个模型有多贵呢，训练它用了3640petaflops-day，相当于每秒钟做千万亿次浮点运算，计算了3640天。约等于500个A100卡算1个月，实际消耗的计算资源成本在千万美元级别。

这个模型有多牛？训练它用了45T的数据，在NLP领域的内容理解、文本自定义生成方面可以说效果非常好。网上有一些GPT-3的play ground，大家可以玩一玩。比如我设定了一个话题，它就会自动给我写一段小故事：

主要聊聊GPT-3诞生后，整个AI领域一些商业模式的改变。首先GPT-3证明了一点，只要肯投入训练数据，并且增加模型复杂度，就可以做大大力出奇迹。实现one-shot战胜sota。One-shot指的是提供极少的训练样本也能生成模型，sota就是各个垂直领域的最牛逼的模型。

（以下对于商业模式的思考内容纯属YY）

所以未来在AI层面可能形成一个计算力霸权，并且形成一种新的商业模式“learn from model”。在未来，可能几家拥有计算力的公司，会集全部算力实现一个万亿级别参数的模型，这个模型可以达到类人甚至超越人的智力，实现zero-shot。就是对新内容可以直接做预测，比如人类没有见过鸭嘴兽，但是可以根据它的嘴巴长的像鸭子而联想到鸭嘴兽这样的名字。

拥有了这个超级模型的公司会控制整个人工智能领域的发展，因为其它组织没有能力训练这么大的模型，甚至没有能力基于这么大的模型finetune。就像是今天几个大的互联网公司占据了主流的流量，其它创业公司只能在垂直领域创新一样。未来的基于人工智能的发展，可能只能通过商业公司提供的超级模型的基础上做垂直领域的挖掘。人们通过某些手段调用这些超级模型，拿到结果，在做二次创新。

所以后续，假设大力出奇迹的模式成立，谁掌握了最大计算力，谁就最有可能获取智能霸权，得到最牛的模型，这个模型将有可能像水、电、煤一样成为一切人类应用的基础设施，实现霸权。

登录查看更多