重磅！Meta AI开源OPT-175B：1750亿参数大模型

会员服务 ·

重磅！Meta AI开源OPT-175B：1750亿参数大模型

2022 年 5 月 4 日 CVer

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达

本文转载自：机器之心 | 编辑：陈萍

OPT-175B，使人工智能更加开放和可复制。

Meta AI 在昨天公布的一篇论文可谓是炸开了锅，论文网站 paperswithcode 热搜榜第一，众多 AI 大佬推荐：

LSTM 提出者和奠基者，奥地利人工智能高级研究所（IARAI）创始人 Sepp Hochreiter 教授就在推特上进行了宣传：

社交及新闻网站 reddit 讨论量也爆表：

有研究者表示这是将大型 LM 研究引入学术界的重大一步。用一句话总结就是：Meta AI 正在开放用于人工智能研究的大型语言模型访问权限，并表示这个具有 1750 亿参数的模型，是第一个可供更广泛的人工智能研究社区使用的模型。值得注意的是，OpenAI 提出的 GPT-3 也具有 1750 亿参数，不知道这一数字是巧合还是其他。

下面我们介绍一下这项研究的主要内容。

Meta AI 开放 1750 亿参数的模型

大型语言模型，即具有超过 1000 亿个参数的自然语言处理 (NLP) 系统，在过去几年中改变了 NLP 和 AI 研究。这些模型经过大量文本训练，在生成创意文本、解决数学问题、回答阅读理解等方面表现出令人惊讶的能力。

虽然在某些情况下，公众可以通过付费 API 与这些模型进行交互，但完整的研究访问权限仍然仅限于少数资源丰富的实验室。这种受限访问限制了研究人员理解这些大型语言模型如何以及为什么工作的能力，阻碍了提高其鲁棒性和减轻偏见等已知问题的进展。

根据 Meta AI 对开放科学的承诺，他们正在共享 Open Pretrained Transformer (OPT-175B)，这是一个具有 1750 亿参数的模型，在公共数据集上训练而成，之所以共享这个模型，Meta AI 希望更多的社区参与理解关于大模型的基本技术。

论文：https://arxiv.org/pdf/2205.01068

代码：https://github.com/facebookresearch/metaseq

对于这种规模的语言技术系统，该版本首次包括预训练模型以及训练和使用它们所需的代码。为了保持完整性并防止滥用，Meta AI 将在非商业许可下发布该模型，以专注于研究用例。该模型的访问权限将授予学术研究人员；隶属于政府、民间团体和学术界组织的人员；以及世界各地的工业研究实验室。

Meta AI 希望整个人工智能社区，包括学术研究人员、民间团体、政策制定者等研究者共同努力，围绕负责任的人工智能，特别是负责任的大型语言模型制定明确的指导方针，因为它们在许多下游语言应用程序中处于中心地位。人工智能社区更需要访问这些模型，以便进行可重复的研究并共同推动该领域的发展。随着 OPT-175B 和小规模基线的发布，Meta AI 也希望增加伦理方面的考虑。

公开记录文档

根据 AI 合作伙伴关系（Partnership on AI）为研究人员制定的出版指南，以及 NIST 在 2022 年 3 月概述的治理指南（第 3.4 节），Meta AI 将发布开发过程的所有记录文档，包括详细说明日常训练过程的完整 logbook，因此其他研究人员可以更轻松地在此工作基础上继续研究。此外，这些细节还揭示了用于训练 OPT-175B 的计算量以及当底层基础设施或训练过程本身大规模变得不稳定时所需的人力开销。

对此有研究者表示：研究团队的 logbook 是一个隐藏的宝石，突出了自 Lua torch 以来就存在且尚未解决的 ML 研究中的痛点 / 更广泛的问题：

Meta AI 仅使用 16 个 NVIDIA V100 GPU 来训练和部署模型的代码库，以增加这些模型的可访问性，达到专门用于研究目的。Meta AI 还全面发布了一套更小规模的基线模型，使用的数据集和 OPT-175B 相同，设置也和 OPT-175B 类似，这样一来研究人员能够单独研究模型规模的影响。这些小规模模型的参数包括 1.25 亿、3.5 亿、13 亿、27 亿、67 亿、130 亿和 300 亿（660 亿即将发布）。

人工智能研究的最新发展消耗了大量的计算能力。虽然行业实验室已经开始报告这些模型的碳足迹，但大多数不包括与实验研发阶段相关的计算成本，在某些情况下，这可能比训练最终模型更耗费一个数量级的资源。

Meta AI 在开发 OPT-175B 时考虑到了能源效率，其碳足迹仅为 GPT-3 的 1/7。这是通过在 Megatron-LM 中结合 Meta 的开源全分片数据并行 (FSDP) API 和 NVIDIA 的张量并行抽象来实现的。Meta AI 在 NVIDIA 的 80 GB A100 GPU 上实现了约 147 TFLOP/s/GPU 利用率，比 NVIDIA 研究人员在类似硬件上公布的数据高出大约 17%。

通过与代码库共享这些基线以有效地训练 175B 模型，Meta AI 正在减少碳足迹，同时还允许以一致的方式衡量该领域的新成果和进展。

代尔夫特理工大学助理教师 Luís Cruz 表示：很高兴看到新的人工智能论文讨论他们模型的碳足迹。尽管有非常粗略的估计，但 OPT-175B 是作为 GPT-3 的替代品提出的，其碳足迹是 GPT-3 的 1/7。

Meta AI 希望 OPT-175B 能够为大语言模型创建的前沿带来更多声音，帮助社区集体设计负责任的发布策略，为该领域的大语言模型开发增加前所未有的透明度和开放性。

访问开源代码和小规模预训练模型：https://github.com/facebookresearch/metaseq
OPT-175B：https://docs.google.com/forms/d/e/1FAIpQLSe4IP4N6JkCEMpCP-yY71dIUPHngVReuOmQKDEI1oHFUaVg7w/viewform
OPT-175B 许可协议：https://github.com/facebookresearch/metaseq/blob/main/projects/OPT/MODEL_LICENSE.md

ICCV和CVPR 2021论文和代码下载

后台回复：CVPR2021，即可下载CVPR 2021论文和代码开源的论文合集

后台回复：ICCV2021，即可下载ICCV 2021论文和代码开源的论文合集

后台回复：Transformer综述，即可下载最新的3篇Transformer综述PDF

目标检测和Transformer交流群成立

扫描下方二维码，或者添加微信：CVer6666，即可添加CVer小助手微信，便可申请加入CVer-目标检测或者Transformer 微信交流群。另外其他垂直方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。

一定要备注：研究方向+地点+学校/公司+昵称（如目标检测或者Transformer+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群