送给大模型的「高考」卷：442人联名论文给大模型提出204个任务，谷歌领衔 - 专知

会员服务 ·

0

送给大模型的「高考」卷：442人联名论文给大模型提出204个任务，谷歌领衔

2022 年 6 月 11 日 机器之心

机器之心报道

编辑：泽南

大规模预训练模型需要大型 benchmark 来进行验证。

在 Jeff Dean 等人 Pathways 架构的首个模型 PaLM 中，研究人员在一个名为 BIG-Bench 的大模型专用基准上与其他算法进行了多项任务测试。近日，谷歌终于将 BIG-Bench 的论文和 GitHub 公开出来。

研究人员表示，该工作历经两年努力完成，论文长达 100 页，作者有 442 人，目前 benchmark 包含的任务已经从 PaLM 论文时期的 150 个增加到超过 200 个。

BIG-bench 是一套用于各种规模语言模型评估的新基准测试，谷歌 AI 负责人 Jeff Dean 点赞了这一工作。

论文《Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models》

论文链接：https://arxiv.org/abs/2206.04615
GitHub：https://github.com/google/BIG-bench

随着规模的不断扩大，语言模型展示了定量改进和新的定性能力。尽管它们具有潜在的变革性影响，但其表现出的新功能特征仍然很差。为了给未来的研究提供更多信息，为颠覆性的新模型能力做好准备，了解语言模型当前和近期的能力和局限性至关重要。为了应对这一挑战，谷歌提出了超越模仿游戏基准（Beyond the Imitation Game Benchmark，BIG-bench）。

BIG-bench 目前由 204 个任务组成，获得了来自 132 个研究机构的 442 位作者贡献。该基准的任务主题多种多样，涉及语言学、儿童发展、数学、常识推理、生物学、物理学、社会偏见、软件开发等领域的问题。BIG-bench 专注于被认为超出当前语言模型能力的任务。谷歌在 BIG-bench 上评估了 OpenAI 的 GPT 系列模型、谷歌内部的密集 transformer 架构和 Switch 式稀疏 transformer 的行为，模型规模跨越数百万到数千亿个参数。

此外，还有一组人类专家执行过所有任务，以提供较准确的基线水平。目前对于各类模型的调查结果包括：模型性能和校准都随规模而提高，但绝对值（absolute term）较差（与评估者性能相比）；不同类模型的性能非常相似，但稀疏性有性能增益；逐步和可预测地改进的任务通常涉及大量的知识或记忆部分，而在关键规模上表现出「突破性」行为的任务通常涉及多个步骤或脆弱的指标；在具有模糊背景的环境中，社会偏见通常会随着模型规模的扩大而增加，但可以通过 prompting 来改善。

图 1：在 BIG-bench 上，很多模型总体性能随着体量的增加而提高。但目前看来，所有模型在绝对值（absolute term）方面都表现一般。

图 2：现有基准测试的范围很窄，并且表现出快速饱和的性能。

图 3：BIG-bench 任务的多样性和规模。（a）任务关键词的词云。（b）以样本数量衡量的任务规模分布。

BIG-bench Lite (BBL) 是来自 BIG-bench 的 24 个不同 JSON 任务的一小部分，旨在提供模型性能的规范度量，同时比 BIG-bench 中的 200 多个编程和 JSON 任务的全套评估轻便得多。BBL 上当前模型性能的排行榜如上图所示。

图 4：每个 BIG-bench Lite 任务上的最佳（蓝色）和平均（灰色）人类得分，以及最佳模型配置（栗色）的 BIG-bench Lite 性能。多项选择任务的随机性能由影线标记表示。

谷歌鼓励社区参与者继续提交新的任务，并表示任务将被逐一审查并以滚动方式合并到 BIG-bench 存储库中。任务作者也将包含在未来出版物的作者列表中。

© THE END

转载请联系本公众号获得授权

投稿或寻求报道：content@jiqizhixin.com

登录查看更多

1

相关内容

BIG-bench

历时2年442位作者132个机构！Google发布语言模型评价新基准BIG-bench，204个任务全面评价大语言模型的能力

历时2年442位作者132个机构！Google发布语言模型评价新基准BIG-bench，204个任务全面评价大语言模型的能力

专知会员服务

20+阅读 · 2022年6月10日

5400亿！谷歌「Pathways语言模型」发布，能理解做推理生成代码

5400亿！谷歌「Pathways语言模型」发布，能理解做推理生成代码

专知会员服务

40+阅读 · 2022年4月5日

BERT、GPT-3等预训练模型大一统？斯坦福Percy Liang、李飞飞等114位作者发布212页综述，阐述大模型机遇与风险

BERT、GPT-3等预训练模型大一统？斯坦福Percy Liang、李飞飞等114位作者发布212页综述，阐述大模型机遇与风险

专知会员服务

69+阅读 · 2021年8月19日

1750亿参数！GPT-3来了！31位作者，OpenAI发布小样本学习器语言模型

1750亿参数！GPT-3来了！31位作者，OpenAI发布小样本学习器语言模型

专知会员服务

73+阅读 · 2020年5月30日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知会员服务

45+阅读 · 2020年2月12日

442个作者100页论文！谷歌耗时2年发布大模型新基准BIG-Bench | 开源

442个作者100页论文！谷歌耗时2年发布大模型新基准BIG-Bench | 开源

量子位

4+阅读 · 2022年6月11日

历时2年442位作者132个机构！Google发布语言模型评价新基准BIG-bench，204个任务全面评价语言模型能力，附论文

历时2年442位作者132个机构！Google发布语言模型评价新基准BIG-bench，204个任务全面评价语言模型能力，附论文

专知

0+阅读 · 2022年6月10日

用自洽性提升大模型推理能力，谷歌解答基准中75%数学问题，比GPT-3提升20%

用自洽性提升大模型推理能力，谷歌解答基准中75%数学问题，比GPT-3提升20%

机器之心

0+阅读 · 2022年4月12日

Jeff Dean万字长文回顾2021：除了超大的AI模型，谷歌还有啥？

Jeff Dean万字长文回顾2021：除了超大的AI模型，谷歌还有啥？

极市平台

0+阅读 · 2022年1月12日

中文世界又多一个评测语言大模型能力的基准CUGE，覆盖17种主流NLP任务

中文世界又多一个评测语言大模型能力的基准CUGE，覆盖17种主流NLP任务

机器之心

1+阅读 · 2021年12月31日

类进化计算研究：基于可达特性分析的类进化算法理论与应用

国家自然科学基金

1+阅读 · 2012年12月31日

计算机科学中的若干组合问题研究

国家自然科学基金

1+阅读 · 2012年12月31日

随机延时神经网络的吸引子和分岔

国家自然科学基金

1+阅读 · 2012年12月31日

具有年龄结构的集合种群中若干进化问题研究

国家自然科学基金

0+阅读 · 2011年12月31日

基于在线模糊聚类与闭环模糊辨识的非线性系统智能容错控制

国家自然科学基金

0+阅读 · 2009年12月31日

Curriculum Learning for Data-Efficient Vision-Language Alignment

Arxiv

0+阅读 · 2022年7月29日

LAD: Language Models as Data for Zero-Shot Dialog

Arxiv

0+阅读 · 2022年7月28日

Attention Bottlenecks for Multimodal Fusion

Arxiv

31+阅读 · 2021年6月30日

Doc2EDAG: An End-to-End Document-level Framework for Chinese Financial Event Extraction

Doc2EDAG: An End-to-End Document-level Framework for Chinese Financial Event Extraction

Arxiv

11+阅读 · 2019年9月23日

End-to-End Multi-Task Learning with Attention

Arxiv

19+阅读 · 2018年3月28日

VIP会员

相关主题

相关VIP内容

历时2年442位作者132个机构！Google发布语言模型评价新基准BIG-bench，204个任务全面评价大语言模型的能力

历时2年442位作者132个机构！Google发布语言模型评价新基准BIG-bench，204个任务全面评价大语言模型的能力

专知会员服务

20+阅读 · 2022年6月10日

5400亿！谷歌「Pathways语言模型」发布，能理解做推理生成代码

5400亿！谷歌「Pathways语言模型」发布，能理解做推理生成代码

专知会员服务

40+阅读 · 2022年4月5日

BERT、GPT-3等预训练模型大一统？斯坦福Percy Liang、李飞飞等114位作者发布212页综述，阐述大模型机遇与风险

BERT、GPT-3等预训练模型大一统？斯坦福Percy Liang、李飞飞等114位作者发布212页综述，阐述大模型机遇与风险

专知会员服务

69+阅读 · 2021年8月19日

1750亿参数！GPT-3来了！31位作者，OpenAI发布小样本学习器语言模型

1750亿参数！GPT-3来了！31位作者，OpenAI发布小样本学习器语言模型

专知会员服务

73+阅读 · 2020年5月30日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知会员服务

45+阅读 · 2020年2月12日

热门VIP内容

开通专知VIP会员享更多权益服务

美海军作战管理系统：变革战场空间的二十年

《任务与武器驱动美海军舰队设计》报告

俄罗斯“沙希德”/“天竺葵”攻击无人机

《利用动态图对网络攻击进行建模与仿真：在云安全评估中的应用》90页

相关资讯

442个作者100页论文！谷歌耗时2年发布大模型新基准BIG-Bench | 开源

442个作者100页论文！谷歌耗时2年发布大模型新基准BIG-Bench | 开源

量子位

4+阅读 · 2022年6月11日

历时2年442位作者132个机构！Google发布语言模型评价新基准BIG-bench，204个任务全面评价语言模型能力，附论文

历时2年442位作者132个机构！Google发布语言模型评价新基准BIG-bench，204个任务全面评价语言模型能力，附论文

专知

0+阅读 · 2022年6月10日

用自洽性提升大模型推理能力，谷歌解答基准中75%数学问题，比GPT-3提升20%

用自洽性提升大模型推理能力，谷歌解答基准中75%数学问题，比GPT-3提升20%

机器之心

0+阅读 · 2022年4月12日

Jeff Dean万字长文回顾2021：除了超大的AI模型，谷歌还有啥？

Jeff Dean万字长文回顾2021：除了超大的AI模型，谷歌还有啥？

极市平台

0+阅读 · 2022年1月12日

中文世界又多一个评测语言大模型能力的基准CUGE，覆盖17种主流NLP任务

中文世界又多一个评测语言大模型能力的基准CUGE，覆盖17种主流NLP任务

机器之心

1+阅读 · 2021年12月31日

相关基金

类进化计算研究：基于可达特性分析的类进化算法理论与应用

国家自然科学基金

1+阅读 · 2012年12月31日

计算机科学中的若干组合问题研究

国家自然科学基金

1+阅读 · 2012年12月31日

随机延时神经网络的吸引子和分岔

国家自然科学基金

1+阅读 · 2012年12月31日

具有年龄结构的集合种群中若干进化问题研究

国家自然科学基金

0+阅读 · 2011年12月31日

基于在线模糊聚类与闭环模糊辨识的非线性系统智能容错控制

国家自然科学基金

0+阅读 · 2009年12月31日

相关论文

Curriculum Learning for Data-Efficient Vision-Language Alignment

Arxiv

0+阅读 · 2022年7月29日

LAD: Language Models as Data for Zero-Shot Dialog

Arxiv

0+阅读 · 2022年7月28日

Attention Bottlenecks for Multimodal Fusion

Arxiv

31+阅读 · 2021年6月30日

Doc2EDAG: An End-to-End Document-level Framework for Chinese Financial Event Extraction

Doc2EDAG: An End-to-End Document-level Framework for Chinese Financial Event Extraction

Arxiv

11+阅读 · 2019年9月23日

End-to-End Multi-Task Learning with Attention

Arxiv

19+阅读 · 2018年3月28日

大家都在搜

朱克爱德华兹家族

大型语言模型

蓝牙安全攻防

模型压缩 | 知识蒸馏经典解读

微信扫码咨询专知VIP会员