442个作者100页论文！谷歌耗时2年发布大模型新基准BIG-Bench

会员服务 ·

442个作者100页论文！谷歌耗时2年发布大模型新基准BIG-Bench | 开源

2022 年 6 月 11 日 量子位

白交发自凹非寺
量子位 | 公众号 QbitAI

一篇AI论文，442个作者。

其中还专门留了一章节写作者贡献。

100页里超过一半都是参考文献……

不是，现在都流行这样式儿的论文吗？

这不，谷歌最新发布的论文——Beyond The Imitation Game: Quantifying And Extrapolating The Capabilities Of Language Models。

于是作者那一栏就变成了这样……

来自132个机构的研究学者，耗时两年提出了一个大语言模型新基准BIG-bench。

并在此基础上评估了OpenAI的GPT模型，Google-internal dense transformer架构等，模型规模横6个数量级。

最终结果显示，模型性能虽然随着规模的扩大而提高，但跟人类的表现相差还很远。

对于这项工作，Jeff Dean转发点赞：Great Work。

大语言模型新基准

来康康这篇论文究竟说了什么。

随着规模的扩大，模型的性能和质量都有一定的改进，这当中可能还存在一些变革性影响，但这些性能此前都没有很好的描述。

现存的一些基准都有一定的局限性，评估范围比较狭窄，性能分数迅速达到饱和。

比如SuperGLUE，在该基准推出后的18个月内，模型就实现了“超过人类水平”的性能。

基于这样的背景，BIG-bench就诞生了。

目前它由204个任务组成，内容涵盖语言学、儿童发展、数学、常识推理、生物学、物理学、社会偏见、软件开发等方面的问题。

此外还有个人类专家评审团，也执行了所有任务，以提供基线水平。

为了方便更多机构使用，研究人员还给出了BIG-bench Lite，一个小型但有代表性的任务子集，方便更快地评估。

以及开源了实现基准API的代码，支持在公开可用的模型上进行任务评估，以及新任务的轻量级创建。

最终评估结果可以看到，规模横跨六个数量级，BIG-bench上的总体性能随着模型规模的扩大、训练样本数量的增加而提高。

但跟人类基线水平相比，还是表现得比较差。

具体在一些任务上，模型性能会随着规模的增加而平稳地提高。但有时候，会在特定规模上突然出现突破性表现。

此外，它还可以评估模型存在的社会偏见。

此外，他们还意外发现模型还可以get一些隐藏技能。比如，如何在国际象棋中合乎规则的移动。

作者贡献写了14页

值得一提的是，可能因为作者过多，论文最后还专门留了一章写作者贡献。

洋洋洒洒的写了14页，其中包括核心贡献者、Review的、提供任务的……

剩下的，还有50页的参考文献。

好了，感兴趣的旁友可戳下方链接康康论文。

论文链接：
https://arxiv.org/abs/2206.04615
GitHub链接：
https://github.com/google/BIG-bench
参考链接：
https://twitter.com/jaschasd/status/1535055886913220608

— 完 —

「人工智能」、「智能汽车」微信社群邀你加入！

欢迎关注人工智能、智能汽车的小伙伴们加入我们，与AI从业者交流、切磋，不错过最新行业发展&技术进展。

ps.加好友请务必备注您的姓名-公司-职位哦~

点这里👇关注我，记得标星哦～

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见~

登录查看更多

相关内容

BIG-bench

关注 0

NAACL 2022论文奖项公布：5篇论文斩获最佳

专知会员服务

24+阅读 · 2022年7月1日

历时2年442位作者132个机构！Google发布语言模型评价新基准BIG-bench，204个任务全面评价大语言模型的能力

专知会员服务

20+阅读 · 2022年6月10日

5400亿！谷歌「Pathways语言模型」发布，能理解做推理生成代码

专知会员服务

40+阅读 · 2022年4月5日

1370亿参数、接近人类水平，谷歌对话AI模型LaMDA放出论文

专知会员服务

46+阅读 · 2022年1月24日

BERT、GPT-3等预训练模型大一统？斯坦福Percy Liang、李飞飞等114位作者发布212页综述，阐述大模型机遇与风险

专知会员服务

69+阅读 · 2021年8月19日

1750亿参数！GPT-3来了！31位作者，OpenAI发布小样本学习器语言模型

专知会员服务

73+阅读 · 2020年5月30日

【ICML2020投稿论文-CMU-DeepMind-Google】用于评估跨语言泛化的大规模多语言多任务基准

专知会员服务

14+阅读 · 2020年3月27日

谷歌提出“T5” 新NLP模型，突破迁移学习局限，多基准测试达SOTA！

专知会员服务

41+阅读 · 2020年2月26日

【Google论文强烈推荐】ALBERT:基于精简BERT的自我监督学习的语言表示，ALBERT: A Lite BERT for Self-Supervised Learning of Language Representations

专知会员服务

24+阅读 · 2019年12月21日

【论文推荐】增加透明度与谷歌云可解释的人工智能（附pdf）

专知会员服务

16+阅读 · 2019年11月23日

谷歌、斯坦福联合发文：我们为什么一定要用大模型？

夕小瑶的卖萌屋

2+阅读 · 2022年7月12日

模型越大表现越差，这个比赛悬赏25万美元找大模型不擅长的任务，去试试？

机器之心

0+阅读 · 2022年7月5日

送给大模型的「高考」卷：442人联名论文给大模型提出204个任务，谷歌领衔

机器之心

1+阅读 · 2022年6月11日

历时2年442位作者132个机构！Google发布语言模型评价新基准BIG-bench，204个任务全面评价语言模型能力，附论文

专知

0+阅读 · 2022年6月10日

用自洽性提升大模型推理能力，谷歌解答基准中75%数学问题，比GPT-3提升20%

机器之心

0+阅读 · 2022年4月12日

200亿参数GPT-NeoX即将开源：96块A100训练三个月，野生GPT家族再添一员

机器之心

2+阅读 · 2022年2月4日

90.35%准确率！谷歌刚刚开源最大视觉模型V-MoE的全部代码！150亿参数！

CVer

0+阅读 · 2022年1月21日

150亿参数，谷歌开源了史上最大视觉模型V-MoE的全部代码

极市平台

0+阅读 · 2022年1月16日

深度学习变天，模型越做越小！Google发布FLAN，模型参数少400亿，性能超越GPT-3

THU数据派

0+阅读 · 2021年9月17日

逆天语言模型GPT-2最新开源：345M预训练模型和1.5B参数都来了

量子位

18+阅读 · 2019年5月4日

多标记文本数据流分类方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于深层神经网络的多模态快速稀疏表征器

国家自然科学基金

3+阅读 · 2014年12月31日

社区美沙酮维持治疗评估预测模型(EPM-MMT)的构建和应用

国家自然科学基金

1+阅读 · 2014年12月31日

机器翻译中大规模异类特征的迁移学习

国家自然科学基金

2+阅读 · 2013年12月31日

大规模动态图中不稳定子结构挖掘算法研究

国家自然科学基金

1+阅读 · 2013年12月31日

基于行为踪迹的网络蠕虫模型和检测方法

国家自然科学基金

0+阅读 · 2013年12月31日

基于高分辨率遥感影像的城市社区尺度的收入水平估算方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于替换的实时Web服务事务处理

国家自然科学基金

0+阅读 · 2012年12月31日

多卫星导航系统时空基准的统一

国家自然科学基金

1+阅读 · 2012年12月31日

基于GPU性能模型的异构系统优化技术研究

国家自然科学基金

0+阅读 · 2011年12月31日

GT4SD: Generative Toolkit for Scientific Discovery

Arxiv

0+阅读 · 2022年7月27日

Faster online calibration without randomization: interval forecasts and the power of two choices

Arxiv

0+阅读 · 2022年7月26日

FP4: Line-rate Greybox Fuzz Testing for P4 Switches

Arxiv

0+阅读 · 2022年7月26日

Black-box Few-shot Knowledge Distillation

Arxiv

0+阅读 · 2022年7月25日

Open Petri Nets

Arxiv

0+阅读 · 2022年7月25日

N-LIMB: Neural Limb Optimization for Efficient Morphological Design

Arxiv

0+阅读 · 2022年7月24日

Maximizing Nash Social Welfare in 2-Value Instances: The Half-Integer Case

Arxiv

0+阅读 · 2022年7月22日

Deep Neural Network Based Relation Extraction: An Overview

Arxiv

14+阅读 · 2021年1月6日

Self-training with Noisy Student improves ImageNet classification

Arxiv

15+阅读 · 2019年11月11日

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

Arxiv

16+阅读 · 2019年5月24日

VIP会员