全球1000+研究员在Twitter直播训练超大模型？？

2022 年 7 月 18 日 夕小瑶的卖萌屋

文 | 王思若

将视角转换到2020年，OpenAI发布了拥有1750亿参数量的GPT-3, 在阅读理解、语言翻译、问答等多种任务展现了令人惊艳的效果，算法+工程二者结合展现了大模型的“暴力美学”，也同时开启了千亿、万亿参数模型的 “军备竞赛”。

从模型框架到并行架构，从NLP,CV再到多模态，大型语言模型（LLM）逐渐成为了少数几个公司和研究院竞相争抢的赛道。

之后我们见证了从DeepMind的2800亿参数Gopher到NVIDIA和微软联合发布的5300亿参数的Megatron-Turing，从Google的1.6万亿参数的Switch Transformer再到智源的1.75万亿参数的悟道2.0。

尽管有些模型开放了API接口或参数，但详尽的技术细节却未公之于众，导致难以全然复现。

例如，OpenAI拒绝公布GPT-3模型参数，DeepMind对于让蛋白质结构预测走上新阶段的AlphaFold2也只是公布了推理代码。学界和社区呼唤开源，但是我们也无法苛求这些以盈利为立足之本的企业能够全然公开其技术研究成果。

这似乎是一个关于巴别塔的困境——人类联合起来兴建希望能通往天堂的高塔，但是上帝为了阻止人类让人类说不同语言，互相之间不能沟通，进而导致计划失败。

在这些公司试图建立起自己的技术壁垒的同时，也涌现了一批人去尝试打破它们。Meta复现并完全开源了GPT-3，哥伦比亚大学全流程复现并开源了AlphaFold2。

今天我们要介绍的主角，也是这批力量中不可忽视的一个组织——BigScience，一个包容、开放、协作共享的大型语言模型（LLM）社区，围绕研究和创建超大型语言模型的开放式协作研讨会，由HuggingFace、GENCI和IDRIS发起的开放式合作，汇集了全球 1000 多名研究人员。

BigScience既不是实体组织，也不是互联网企业，有人说这是一群希望构造更加开源、开放社区的学者汇聚形成的“星星之火”。接下来，笔者将阐述这群人的故事，或许，从他们开始AI社区的规则将迎来转变。

BigScience的故事

这个故事开始于21年1月，Hugging Face创办者之一的Thomas Wolf、来自超级计算机制造商GENCI的Stéphane Requena和来自运营超级计算机的法国公共研究机构IDRIS的Pierre-François Lavallée对人工智能进行了探讨，并一致认为工业界应该和学术界合作构建开源、开放的通用型研究工具。
21年1月-4月，Hugging Face联合法国学术社区成立了BigScience🌸，并得到了500万GPU时的资助。
21年7月-8月，训练完成了GPT-style架构的多语言预训练语言模型，其在13种语言构建的4000亿tokens组成的语料库中进行训练，模型参数为13亿。
21年底-22年初，尝试训练千亿参数的多语言预训练语言生成模型，并进行了一系列参数量、数据集、模型架构等方面的探索。期间遇到了很多难题，例如1040亿参数的模型训练不收敛，反而1760亿参数的模型训练很稳定以及数据质量不达标。

22年3月11日，BigScience正式在384张80GB显存的A100上公开训练了1760亿参数量的多语言预训练预训练语言模型 BLOOM (BigScience Language Open-science Open-access Multilingual) ，采取了类似与GPT的Decoder架构。这一项目由30个工作组参与，其中涉及到1000多人报名以及数百名积极参与者。模型预计训练3-4个月，训练数据包括46种语言， 训练期间loss和梯度变化等日志都通过tensorboard的形式在huggingface网站中实时展现了出来，任何人都可以实时跟踪模型训练！

为了让小伙伴不错过大模型BLOOM训练成长的每一天，更是为其开通了twitter账号，从此开启了每日汇报训练进度的日常。从0%开始，到99%、100%，经过111天，模型终于训练完毕。不过，BigScience说让子弹再飞一会，模型会继续训练几天，当然每日的推文就变成了训练进度101%、102%... ... 马上小伙伴们就可以亲自测试BLOOM大模型的效果啦！

虽然最终模型还没有发布，但该模型的checkpoints已经展现了非常酷的效果，可以协助编程例如生成递归函数，纠正语法错误。每一个人都将会有无限的自由去探索大模型未知的潜力，这会是属于每一个人的一场大模型的“狂欢”。

或将成为AI社区的破局者

人工智能对社会产生了根本性的影响，特别是大规模预训练语言模型的研发与应用加速了这种影响的深度和广度，但是大模型的核心技术往往被少数的科技巨头牢牢把控，受限于财务、法律或道德原因，这些资源丰富的研究团体或公司对于模型细节并不十分开放，因此社区对这种变革性技术在构建方式、功能以及进一步改进方面缺乏很好的理解，与此同时在环境、伦理和社会等方面的进一步探索也面临着巨大的束缚。

开放的科学合作才会更加促进学术研究并最终造福整个学术界。

我们看到BigScience成为了人工智能时代新的破局者，BigScience是全球数百名研究人员组成的开放科学项目，这些研究人员作为志愿者秉持着开放、多样、包容乃至造福人类的想法参与了BLOOM(BigScience Language Open-science Open-access Multilingual)大模型的构建以及训练过程。只要你感兴趣，提交表格然后加入他们的Slack频道，你就会成为贡献者的一员。

因此，来自世界各地的大量研究人员在其中共同训练大型语言模型（LLM），一切完全公开，任何人都可以参与，所有研究成果都与整个社区共享。

BigScience作为一个跨学科的研讨会，汇聚了人工智能、社会科学、法律、伦理等多种研究领域的学术和工业界的研究人员，集中时间和资源共同实现更大的影响。

BigScience成为AI历史上第一个超过1000多名研究人员参与创建单一模型和数据集的案例，继而，BLOOM也成为目前第一个也是唯一一个在这种规模上创建的完全开源的大型语言模型。