模型越大表现越差，这个比赛悬赏25万美元找大模型不擅长的任务，去试试？ - 专知

会员服务 ·

0

模型越大表现越差，这个比赛悬赏25万美元找大模型不擅长的任务，去试试？

2022 年 7 月 5 日 机器之心

机器之心报道

编辑：张倩

帮大模型找 bug 还能赚钱，去试试？

「找到一项任务，越大的模型反而表现越差，你就有机会拿走 10 万美元的奖金。」这是纽约大学的几位研究人员组织的一项另类竞赛。

随着语言模型变得越来越大（参数数量、使用的计算量和数据集大小都变大），它们的表现似乎也原来越好，这被称为自然语言的 Scaling Law。

但是，这些模型也有自己的缺陷，比如存在偏见、可能产生看似合理实则错误的信息。这项竞赛的目的就是要找到一些大模型不擅长的例子。

组织者将这些现象称为 inverse scaling。这样的例子似乎并不常见，但确实也能找到了一些。比如在问答任务中，如果在提问的同时加上你的信仰，大模型会更容易受到影响。其他可能的例子还包括模仿 prompt 中的错误 / bug 或重复常见的错误概念。这些例子能让我们了解当前语言模型预训练和缩放范式的潜在问题，还可以为改进预训练数据集和目标提供灵感。

比赛共有两轮，第一轮截止时间是 2022 年 8 月 27 日，第二轮截止时间是 2022 年 10 月 27 日。

参赛者需要做到以下几点：

确定一个疑似显示了 inverse scaling 的任务；
为该任务构建包含 300 多个示例的数据集；
使用 Colab notebooks，用 GPT-3/OPT 测试你的数据集的 inverse scaling。

提交的作品将根据 AnthropicAI（一家非营利 AI 安全研究公司）提供的一系列私人模型进行评估，奖项将由一个匿名评审团决定。

其中，一等奖一名，奖金为 10 万美元；二等奖五名，奖金 2 万美元；三等奖 10 名，奖金为 5000 美元。总奖金池为 25 万美元。

比赛结束后，组织方将撰写一份结果调查报告，并发布一个包含已接受任务的基准，获奖者将被邀请为论文的共同作者。

更多详细内容参见 GitHub：

项目链接：https://github.com/inverse-scaling/prize

© THE END

转载请联系本公众号获得授权

投稿或寻求报道：content@jiqizhixin.com

登录查看更多

0

相关内容

大模型

大模型是基于海量多源数据打造的预训练模型，是对原有算法模型的技术升级和产品迭代，用户可通过开源或开放API/工具等形式进行模型零样本/小样本数据学习，以实现更优的识别、理解、决策、生成效果和更低成本的开发部署方案。

历时2年442位作者132个机构！Google发布语言模型评价新基准BIG-bench，204个任务全面评价大语言模型的能力

历时2年442位作者132个机构！Google发布语言模型评价新基准BIG-bench，204个任务全面评价大语言模型的能力

专知会员服务

20+阅读 · 2022年6月10日

5400亿！谷歌「Pathways语言模型」发布，能理解做推理生成代码

5400亿！谷歌「Pathways语言模型」发布，能理解做推理生成代码

专知会员服务

40+阅读 · 2022年4月5日

AI 模型偏差对信任的损害可能超出你的想象，该如何解决？（附报告）

AI 模型偏差对信任的损害可能超出你的想象，该如何解决？（附报告）

专知会员服务

21+阅读 · 2022年3月14日

知识增强预训练语言模型:全面综述

知识增强预训练语言模型:全面综述

专知会员服务

93+阅读 · 2021年10月19日

BERT、GPT-3等预训练模型大一统？斯坦福Percy Liang、李飞飞等114位作者发布212页综述，阐述大模型机遇与风险

BERT、GPT-3等预训练模型大一统？斯坦福Percy Liang、李飞飞等114位作者发布212页综述，阐述大模型机遇与风险

专知会员服务

69+阅读 · 2021年8月19日

自然语言处理ACL2020最佳论文出炉！微软摘得最佳论文，Bengio论文获时间检验奖

自然语言处理ACL2020最佳论文出炉！微软摘得最佳论文，Bengio论文获时间检验奖

专知会员服务

45+阅读 · 2020年7月9日

【ICML2020-伯克利】反直觉！大模型重压缩提升Transformer的训练和推理效率，47页ppt

【ICML2020-伯克利】反直觉！大模型重压缩提升Transformer的训练和推理效率，47页ppt

专知会员服务

70+阅读 · 2020年7月1日

1750亿参数！GPT-3来了！31位作者，OpenAI发布小样本学习器语言模型

1750亿参数！GPT-3来了！31位作者，OpenAI发布小样本学习器语言模型

专知会员服务

73+阅读 · 2020年5月30日

[华盛顿大学】微调预训练的语言模型:权重初始化、数据顺序和早期停止

[华盛顿大学】微调预训练的语言模型:权重初始化、数据顺序和早期停止

专知会员服务

23+阅读 · 2019年12月15日

注意力机制模型最新综述

注意力机制模型最新综述

专知会员服务

270+阅读 · 2019年10月20日

百万悬赏！寻找“模型越大，效果越差”的奇葩任务！

百万悬赏！寻找“模型越大，效果越差”的奇葩任务！

夕小瑶的卖萌屋

0+阅读 · 2022年7月10日

GPT-3写了一篇论文

GPT-3写了一篇论文

夕小瑶的卖萌屋

1+阅读 · 2022年7月6日

AI表现越差，获得奖金越高？纽约大学博士拿出百万重金，悬赏让大模型表现差劲的任务

AI表现越差，获得奖金越高？纽约大学博士拿出百万重金，悬赏让大模型表现差劲的任务

量子位

0+阅读 · 2022年7月5日

AI社区炸锅了！一句话哄一哄就能让GPT-3准确率暴涨61%！

AI社区炸锅了！一句话哄一哄就能让GPT-3准确率暴涨61%！

夕小瑶的卖萌屋

0+阅读 · 2022年5月27日

震惊四座! 哄一哄能让GPT-3准确率暴涨61%！

震惊四座! 哄一哄能让GPT-3准确率暴涨61%！

THU数据派

0+阅读 · 2022年5月26日

哄一哄能让GPT-3准确率暴涨61%！谷歌&东京大学研究震惊四座

哄一哄能让GPT-3准确率暴涨61%！谷歌&东京大学研究震惊四座

量子位

0+阅读 · 2022年5月26日

发布日志记录、公开所有代码，Meta开放1750亿参数大模型，媲美GPT-3

发布日志记录、公开所有代码，Meta开放1750亿参数大模型，媲美GPT-3

机器之心

0+阅读 · 2022年5月4日

算法通关挑战！24小时训练模型并通过测试是怎样一种体验？

算法通关挑战！24小时训练模型并通过测试是怎样一种体验？

极市平台

0+阅读 · 2022年4月20日

想复现谷歌5400亿参数的PaLM模型？测算租卡最少花1000万美元！

想复现谷歌5400亿参数的PaLM模型？测算租卡最少花1000万美元！

新智元

0+阅读 · 2022年4月18日

考那么多试，拿那么高分，大模型们真的懂语言了吗？

考那么多试，拿那么高分，大模型们真的懂语言了吗？

机器之心

0+阅读 · 2021年12月22日

舰舷液舱防御爆炸冲击波和高速破片群耦合毁伤机理研究

国家自然科学基金

0+阅读 · 2015年12月31日

精神压力下基于物理模型的变异语音生成机理探索及检测方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

华北克拉通破坏学术交流活动（第四阶段）

国家自然科学基金

0+阅读 · 2014年12月31日

建立microRNA预测FOLFOX方案治疗晚期结直肠癌疗效模型的研究

国家自然科学基金

1+阅读 · 2014年12月31日

青藏高原低涡环流场与加热场之间的相互作用及其对低涡演变东移的影响

国家自然科学基金

0+阅读 · 2013年12月31日

炸药晶体特性与冲击诱导热点内在关联的大规模反应动力学研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于声带振动力学与发声空气动力学的发声疲劳定量评价

国家自然科学基金

0+阅读 · 2013年12月31日

MnSOD在食管鳞癌发生中的作用及双向调节食管癌放疗敏感性的分子机制研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于3D主动肌肉下肢-盆骨模型的耦合股骨轴向力与弯矩指标的KTH损伤风险曲线研究

国家自然科学基金

0+阅读 · 2013年12月31日

数学和计算机模拟肺癌的形成机理

国家自然科学基金

0+阅读 · 2012年12月31日

An MRC Framework for Semantic Role Labeling

Arxiv

1+阅读 · 2022年9月6日

Reconstructing Action-Conditioned Human-Object Interactions Using Commonsense Knowledge Priors

Arxiv

0+阅读 · 2022年9月6日

Computational Humor Using BERT Sentence Embedding in Parallel Neural Networks

Arxiv

0+阅读 · 2022年9月6日

Entity Aware Syntax Tree Based Data Augmentation for Natural Language Understanding

Arxiv

0+阅读 · 2022年9月6日

Automatic Code Documentation Generation Using GPT-3

Arxiv

0+阅读 · 2022年9月6日

Paving the Way for Mature Secondary Research: The Seven Types of Literature Review

Arxiv

0+阅读 · 2022年9月5日

A Survey on Vision Transformer

Arxiv

17+阅读 · 2022年2月23日

Beyond Lexical: A Semantic Retrieval Framework for Textual SearchEngine

Beyond Lexical: A Semantic Retrieval Framework for Textual SearchEngine

Arxiv

16+阅读 · 2020年8月10日

Fine-tune BERT for Extractive Summarization

Arxiv

21+阅读 · 2019年3月25日

Exploring Models and Data for Remote Sensing Image Caption Generation

Arxiv

14+阅读 · 2017年12月21日

VIP会员

相关主题

相关VIP内容

历时2年442位作者132个机构！Google发布语言模型评价新基准BIG-bench，204个任务全面评价大语言模型的能力

历时2年442位作者132个机构！Google发布语言模型评价新基准BIG-bench，204个任务全面评价大语言模型的能力

专知会员服务

20+阅读 · 2022年6月10日

5400亿！谷歌「Pathways语言模型」发布，能理解做推理生成代码

5400亿！谷歌「Pathways语言模型」发布，能理解做推理生成代码

专知会员服务

40+阅读 · 2022年4月5日

AI 模型偏差对信任的损害可能超出你的想象，该如何解决？（附报告）

AI 模型偏差对信任的损害可能超出你的想象，该如何解决？（附报告）

专知会员服务

21+阅读 · 2022年3月14日

知识增强预训练语言模型:全面综述

知识增强预训练语言模型:全面综述

专知会员服务

93+阅读 · 2021年10月19日

BERT、GPT-3等预训练模型大一统？斯坦福Percy Liang、李飞飞等114位作者发布212页综述，阐述大模型机遇与风险

BERT、GPT-3等预训练模型大一统？斯坦福Percy Liang、李飞飞等114位作者发布212页综述，阐述大模型机遇与风险

专知会员服务

69+阅读 · 2021年8月19日

自然语言处理ACL2020最佳论文出炉！微软摘得最佳论文，Bengio论文获时间检验奖

自然语言处理ACL2020最佳论文出炉！微软摘得最佳论文，Bengio论文获时间检验奖

专知会员服务

45+阅读 · 2020年7月9日

【ICML2020-伯克利】反直觉！大模型重压缩提升Transformer的训练和推理效率，47页ppt

【ICML2020-伯克利】反直觉！大模型重压缩提升Transformer的训练和推理效率，47页ppt

专知会员服务

70+阅读 · 2020年7月1日

1750亿参数！GPT-3来了！31位作者，OpenAI发布小样本学习器语言模型

1750亿参数！GPT-3来了！31位作者，OpenAI发布小样本学习器语言模型

专知会员服务

73+阅读 · 2020年5月30日

[华盛顿大学】微调预训练的语言模型:权重初始化、数据顺序和早期停止

[华盛顿大学】微调预训练的语言模型:权重初始化、数据顺序和早期停止

专知会员服务

23+阅读 · 2019年12月15日

注意力机制模型最新综述

注意力机制模型最新综述

专知会员服务

270+阅读 · 2019年10月20日

热门VIP内容

开通专知VIP会员享更多权益服务

《复合人工智能决策优势：面向军事行动的人类数字孪生智能体编队与群体建模》最新文献

中文版《整合蓝绿作战域：北约空陆一体化向多域作战演进》2025最新资料

演进中的空中力量指挥控制体系

《在轨空间目标多智能体检测的制导、导航与控制》195页

相关资讯

百万悬赏！寻找“模型越大，效果越差”的奇葩任务！

百万悬赏！寻找“模型越大，效果越差”的奇葩任务！

夕小瑶的卖萌屋

0+阅读 · 2022年7月10日

GPT-3写了一篇论文

GPT-3写了一篇论文

夕小瑶的卖萌屋

1+阅读 · 2022年7月6日

AI表现越差，获得奖金越高？纽约大学博士拿出百万重金，悬赏让大模型表现差劲的任务

AI表现越差，获得奖金越高？纽约大学博士拿出百万重金，悬赏让大模型表现差劲的任务

量子位

0+阅读 · 2022年7月5日

AI社区炸锅了！一句话哄一哄就能让GPT-3准确率暴涨61%！

AI社区炸锅了！一句话哄一哄就能让GPT-3准确率暴涨61%！

夕小瑶的卖萌屋

0+阅读 · 2022年5月27日

震惊四座! 哄一哄能让GPT-3准确率暴涨61%！

震惊四座! 哄一哄能让GPT-3准确率暴涨61%！

THU数据派

0+阅读 · 2022年5月26日

哄一哄能让GPT-3准确率暴涨61%！谷歌&东京大学研究震惊四座

哄一哄能让GPT-3准确率暴涨61%！谷歌&东京大学研究震惊四座

量子位

0+阅读 · 2022年5月26日

发布日志记录、公开所有代码，Meta开放1750亿参数大模型，媲美GPT-3

发布日志记录、公开所有代码，Meta开放1750亿参数大模型，媲美GPT-3

机器之心

0+阅读 · 2022年5月4日

算法通关挑战！24小时训练模型并通过测试是怎样一种体验？

算法通关挑战！24小时训练模型并通过测试是怎样一种体验？

极市平台

0+阅读 · 2022年4月20日

想复现谷歌5400亿参数的PaLM模型？测算租卡最少花1000万美元！

想复现谷歌5400亿参数的PaLM模型？测算租卡最少花1000万美元！

新智元

0+阅读 · 2022年4月18日

考那么多试，拿那么高分，大模型们真的懂语言了吗？

考那么多试，拿那么高分，大模型们真的懂语言了吗？

机器之心

0+阅读 · 2021年12月22日

相关基金

舰舷液舱防御爆炸冲击波和高速破片群耦合毁伤机理研究

国家自然科学基金

0+阅读 · 2015年12月31日

精神压力下基于物理模型的变异语音生成机理探索及检测方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

华北克拉通破坏学术交流活动（第四阶段）

国家自然科学基金

0+阅读 · 2014年12月31日

建立microRNA预测FOLFOX方案治疗晚期结直肠癌疗效模型的研究

国家自然科学基金

1+阅读 · 2014年12月31日

青藏高原低涡环流场与加热场之间的相互作用及其对低涡演变东移的影响

国家自然科学基金

0+阅读 · 2013年12月31日

炸药晶体特性与冲击诱导热点内在关联的大规模反应动力学研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于声带振动力学与发声空气动力学的发声疲劳定量评价

国家自然科学基金

0+阅读 · 2013年12月31日

MnSOD在食管鳞癌发生中的作用及双向调节食管癌放疗敏感性的分子机制研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于3D主动肌肉下肢-盆骨模型的耦合股骨轴向力与弯矩指标的KTH损伤风险曲线研究

国家自然科学基金

0+阅读 · 2013年12月31日

数学和计算机模拟肺癌的形成机理

国家自然科学基金

0+阅读 · 2012年12月31日

相关论文

An MRC Framework for Semantic Role Labeling

Arxiv

1+阅读 · 2022年9月6日

Reconstructing Action-Conditioned Human-Object Interactions Using Commonsense Knowledge Priors

Arxiv

0+阅读 · 2022年9月6日

Computational Humor Using BERT Sentence Embedding in Parallel Neural Networks

Arxiv

0+阅读 · 2022年9月6日

Entity Aware Syntax Tree Based Data Augmentation for Natural Language Understanding

Arxiv

0+阅读 · 2022年9月6日

Automatic Code Documentation Generation Using GPT-3

Arxiv

0+阅读 · 2022年9月6日

Paving the Way for Mature Secondary Research: The Seven Types of Literature Review

Arxiv

0+阅读 · 2022年9月5日

A Survey on Vision Transformer

Arxiv

17+阅读 · 2022年2月23日

Beyond Lexical: A Semantic Retrieval Framework for Textual SearchEngine

Beyond Lexical: A Semantic Retrieval Framework for Textual SearchEngine

Arxiv

16+阅读 · 2020年8月10日

Fine-tune BERT for Extractive Summarization

Arxiv

21+阅读 · 2019年3月25日

Exploring Models and Data for Remote Sensing Image Caption Generation

Arxiv

14+阅读 · 2017年12月21日

大家都在搜

大型语言模型

IJCAI2025教程

国防科技创新

再见，TD-SCDMA！

微信扫码咨询专知VIP会员