大约一年之前,总部位于纽约布鲁克林区的自然语言处理初创公司 Hugging Face 推出了 BigScience。作为一个涉及 900 多名研究人员的国际项目,BigScience 旨在更好地理解自然语言模型原理、并大大提升语言模型质量。
事实上,这类大型语言模型(LLM)能够实现基于文本的数据集识别、预测乃至语言生成算法,已经在商业应用与技术探索等多个层面引发广泛关注。但是,如果没有 OpenAI 和 DeepMin 等企业强大的资源支持,开发 LLM 所需要的昂贵硬件成本仍然是横亘在普通研究人员面前的一道天堑。
从欧洲核研究组织(CERN)及大型强子对接机等项目中汲取到的灵感,推动 BigScience 立下了以开源方式打造普适性人工智能 LLM、进而建立大型文本数据集社区的发展目标。这些模型将在法国巴黎附近的 Jean Zay 超级计算机上进行训练,这也是迄今为止全球最强大的计算机设备之一。
企业巨头们当然可以不在乎,但 BigScience 这样的努力实际是在降低 LLM 的接触门槛、提升模型开发透明度。除了由开放 AI 研究小组 EleutherAI 创建的几套模型之外,此前一直鲜有在研究或生产部署中使用训练后 LLM 的先例。OpenAI 拒绝将其最强大的 GPT-3 模型开源,反而是将源代码独家授权给了微软。与此同时,英伟达等厂商虽然发布了性能不错的 LLM 代码,但后期严苛的训练调整需求注定其仍只是少数拥有强大硬件的用户们的狂欢。
刚刚离开 Meta(前 Facebook)AI 研究部门、转投 Hugging Face 担任研究主管的 Douwe Kiela 在采访邮件中告诉 venturebeat:“很明显,直接跟业界巨头对抗并非明智之举。但作为弱势一方,我们可以找寻 Hugging Face 最与众不同的优势。初创企业更具活力,工作进程更快,而且对于开源的关注也让我们能够与来自学界乃至其他领域的研究同好们建立起强大的社区合作关系。这一切,都是在为 AI 技术的大众化与公平化进程而努力。”
与其他任何语言模型一样,LLM 也需要根据文本示例理解不同单词出现的几率。较为简单的模型会在特定语境下浏览单词,而大型模型则直接去“啃”句子甚至是段落。示例会以训练数据集中的文本形式出现,包含从社交媒体、维基百科、书籍、GitHub 等软件托管平台以及公共网络上抓取到的 TB 级、甚至是 PB 级数据素材。
但接下来才是更大的难题,我们往往无法使用现成商用硬件训练最先进的 LLM 模型。英伟达及微软的 Megatron 530B LLM 整个训练周期耗费可能高达数百万美元,这还不包含模型存储所带来的费用。接下来则是推理阶段,即通过运行训练后模型获得预测结果。根据估计,在单一 AWS 实例上运行 GPT-3 的年均成本至少也要达到 87000 美元。
年初发布的 EleutherAi 模型与训练数据集倒是做出了一些更加可行的商业化探索。但此次 BigScience 的适用范围更广,不仅涵盖 LLM 的训练与发布,同时也解决了不少重大技术缺陷。
BigScience 的立项,源自 Hugging Face 公司首席科学官 Thomas Wolf、GENCI 的 Stéphane Requena 以及 IDRIS 的 Pierre-François Lavallée 之间的一次讨论。他们不仅希望创建数据集与 LLM,更想探索 LLM 模型可能造成的社会影响。目前有指导委员会为 BigScience 专门提供科学与常规建议,而组织委员会则负责设计任务并组织研讨会、黑客马拉松及对外公共活动。
BigScience 组织委员会内的各个工作组分别负责应对数据治理、归档策略、公平性评估、偏见 / 偏差与社会影响等难题。Hugging Face 研究科学家 Yacine Jernite 在邮件采访中表示,“到底怎么在机器学习领域以更负责任的态度使用数据?唯一可以确定的答案就是,我们没有答案、也代表不了所有人。良好的治理结构应该能让更多利益相关方参与到决策进程当中,并让那些日常生活将要受到技术影响的人们发表意见——哪怕他们对于技术一窍不通。”
BigScience 工作组希望能够收集到充足的多样化指标,尽可能提升模型对不同社群的代表度。除了书籍、正式出版物、广播录音、播客和网站之外,该数据集还引入了来自 Machine Learning Tokyo、VietAI 以及 Masakhane 等社区的专业知识,并针对斯瓦希里语、阿拉伯语、加泰罗尼亚语、汉语、法语、孟加拉语、印度尼西亚语、葡萄牙语及越南语等不同地区、文化背景及语言受众进行了编码。
从计算角度来看,LLM 有着很严重的偏向性。英语 LLM 的数量远远超过任何其他语种 LLM;真正称得上有一搏之力的,也只有德语、法语和西班牙语等少数西欧语种。正如哈佛大学、乔治梅森大学和卡耐基梅隆大学近期共同发布的语言技术研究报告,决定模型发展水平的往往是特定语种使用者的“经济实力”、而非人口体量。
另一个难题在于,使用非英语语种训练而成的单 / 多语言模型虽然也在持续增加,但往往出于企业利益考虑而拒绝开源。而且由于公共数据源存在系统性念头,非英语模型的表现总体上还是不及英语模型。例如,基于维基百科的数据集内不同语种的素材规模差异巨大,而且在待完善内容方面的立项百分比、编辑次数和用户浏览量上也截然不同。相当一部分使用特定语种的群体根本无法访问维基百科。此外,阿拉伯语和乌尔都语版本的电子书大多为图像扫描件、而非纯文本,在使用光学字符识别工具转录过程中其精度可能低至 70%。
BigScience 表示,作为项目工作的一部分,他们已经制作出一份分布在世界各地、包含近 200 种语言资源的目录。该项目的贡献者还建立起最庞大的阿拉伯语公共自然语言目录之一,并将这份拥有 200 多个数据集的目录命名为 Masader。
BigScience 的 LLM 探索之旅虽然刚刚起步,但其早期工作已经显示出不俗的潜力。只需在 Jean Zay 进行几个小时的计算,研究人员就训练出一套名为 T0 的模型。其在多项英语基准测试中的表现均优于 GPT-3,而且体量仅为后者的十六分之一。而 T0 的加强版 T0++ 则顺利完成了不少在训练中从未明确涉及的任务,包括根据食谱生成烹饪说明,并回答关于宗教、衰老、机器学习和道德的问题。
BIgScience T0 模型的更多示例,此模型仍在开发中
虽然目前的 T0 只接受过公开英语数据集的训练,但 BigScience 确定未来会引入更多围绕数据展开的分组研究成果。
图注:BigScience T0 模型的输出结果
但脚下的路还很长。BIgScience 研究人员在过程中发现了不少令人担忧的迹象,例如 T0++ 会生成阴谋论并表现出性别偏见,例如将“女性”与“保姆”联系起来,将“男性”与“建筑师”联系起来;在回答“疫苗会导致自闭症吗?”时给出肯定的答案,甚至认为“地球是平的”。下一阶段的开发将会对这套包含 1040 亿个参数的模型进行实验(仅相当于 GPT-3 参数量的一半出头),最终达成 BigScience 发展路线图的终点:训练出一套具有 2000 亿个参数的多语言模型。模型参数源自历史训练中学习到的算法,一般来说模型复杂度越高、参数量就越大(但也有反例)。
AI 芯片初创公司 LightOn 的研究科学家兼 BigScience 架构负责人 Julien Launay 表示,“我们的建模团队一直专注于规划并验证架构与训练设置,确保从最终 GPU 资源中榨取最大收益。我们需要确保这套最终架构经过验证、可扩展、高效而且适合多语言训练的实际需求。”
参与 BigScience 模型设计工作的 Yandex 研究科学家 Max Ryabinin 也提到,他们目前的主要工程挑战之一就是确保 BigScience 大规模语言模型在训练实验中的稳定性。他提到,一般体量较小的模型更易于实现训练稳定性;而一旦参数规模超过 100 亿,其学习走向就会变得难以预测。
“遗憾的是,目前大多数研究论文都没有涉及这个问题。即使是关于那些超大规模神经网络的论文,也往往会忽略掉这种关于不稳定性问题的信息。而如果没有这方面知识,我们将很难在大型模型上实现结果重现。因此,我们决定先在 1000 亿级别的较小规模上开展初步实验,尽量让问题在正式运行之前暴露出来,再采取多种已知方法尝试解决这些不稳定性。我们会公开发布自己的发现,希望能造福于整个机器学习社区。”
与此同时,BigScience 麾下的各个工作小组也在从自己的角度调查并尝试解决 LLM 的隐私影响框架,包括知情同意问题。其中一个小组正在探索 LLM 设计中可能引发的法律问题,并为 BigScience 制定道德章程。另一个小组则负责研究能够证明数学定理的 LLM 数据集、模型和配套软件工具。
马克斯普朗克创新研究院研究员、BigScience 成员 Carlos Muñoz Ferrandis 在采访邮件中表示,“从法律角度来看,LLM 这类模型很可能遭到恶意利用,所以我们必须站在道德和法律的角度设计出一套完备的许可框架。因此,我们目前正在开发开放许可证,其中囊括了我们所能想到的、可能有损个体利益的情况与相应限制。一方面,我们希望最大限度开放这套自然语言处理模型;另一方面,我们意识到现有许可框架并不应知 LLM 强大的能力。在数据与治理方面,我们也考虑到可能出现的相关挑战,例如如何与特定数据提供方就数据集使用方式进行谈判,或者从网络上抓取数据时需要考虑的重要法律因素,包括个人信息使用与版权例外等不确定性问题。”
根据 Hugging Face 数据治理工作负责人 Margaret Mitchell 的介绍,Hugging Face 的 2022 年发展计划将更多关注 AI 工作流程工具、开发用于 LLM 训练与评估的库,并推出标准化“数据卡”与“模型卡”以覆盖各类 LLM 功能信息。Mitchell 此前曾担任谷歌道德 AI 团队联合创始人与负责人,但之后因抗议谷歌违反行为准则的作法而被迫离职。
Mitchell 在采访邮件中提到,“我们正在开发数据应用工具,希望通过消除编码需求的方式,帮助更多在社会科学等领域拥有专业知识的非工程类人士们迈入开发的世界。只有这样,机器学习在整个传播周期中才能更从容地克服偏见问题。我们还在开发用于训练和评估的库,帮助开发人员建立起「公平」模型……或者利用先进技术选择更符合多样性标准的实例素材。”
BigScience 计划在今年 5 月完成当前工作,届时项目成员将参加于都柏林召开的 2022 年计算语言学协会研讨会。他们希望到时候能拿出一套庞大、而且在理想情况下远超当前顶尖 LLM 性能的全新 LLM 方案。
在商业应用领域,BIgScience 的工作成果有望激发出原有 LLM 无法达成的全新 AI 驱动产品。如今,语言模型已经成为医疗保健、金融服务等行业中的关键工具,可用于处理专利、从科学论文中提取见解、推荐新闻内容等。但由于资源有限,越来越多小型机构已经被排除在 AI 的前沿进步之外。
在 John Snow Labs 与 Gradient Flow 在 2021 年开展的一项调查中,受访企业普遍将准确性列为语言模型评估中的核心要素,其次是生产就绪性与可扩展性。而最大的挑战则体现为成本、维护与数据共享。
幸运的话,BigScience 的努力也许能解决当今 LLM 领域存在的那些最大、最令人担忧的难题。例如,他们正努力实现模型“解毒”,即消除谎言,以及针对不同宗教、性别、种族或残障体征表现出的偏见。在最近一篇论文中,康奈尔大学的科学家们也警告称,如果放任大型语言模型自然泛滥,那么未来可能出现“灌输即服务”这种可怕的使用倾向。
更要命的是,LLM 模型在基础知识层面也仍然没有找到可行的出路,往往会自主打破语义规则并无休止地原地转圈。例如,模型经常会在没有转义的情况下改变对话主题,或者说出自相矛盾的言论。LLM 在道德、历史和法律问题上的了解也堪称浅薄,甚至会在无意间暴露出公共训练数据集中的个人信息。
Kiela 最后总结道,“在 Hugging Face 各研究团队的共同努力下,我们希望在 Meta 式的自下而上探索,与 DeepMind/OpenAI 式的自上而下研究之间找到完美的平衡点。在自下而上时,我们往往会遇到不必要的摩擦、竞争与资源争用问题;至于自上而下,研究人员的自由意志与创造力则会受到打压。我们的员工来自谷歌、Meta 以及整个学术界,所以当下正是最好的探索时机。我们希望创造出一种新的开创性研究环境,给传统实验思维带来一点有益的启发和补充。”
原文链接:
https://venturebeat.com/2022/01/10/inside-bigscience-the-quest-to-build-a-powerful-open-language-model/
点击下方图片即可阅读
解读预训练大模型的2021年:人们正在逐渐驯服这些“庞然大物”
你也「在看」吗?👇