百万悬赏!寻找“模型越大,效果越差”的奇葩任务!

2022 年 7 月 10 日 夕小瑶的卖萌屋

文 | 天于刀刀

犹记 2018 年底谷歌开源 BERT 后,一大批基于 Attention 机制 Transformer 结构的大模型横空出世。

XLNet、MPNet、ERNIE,NLP 任务彻底迈入大规模语料训练 + fintune 的时代。之前一段时间爆火的 prompt 概念也离不开大模型中最基本的预训练 MLM 任务。

经过了多年的发展,不知不觉中,大模型的训练逐渐变成了土豪专属。随着大模型的不断刷榜,相应的大模型参数数量也在疯狂变大,令人咋舌。(无形装逼最为致命)

但正如上期报道的前谷歌员工离开 Google AI 后质疑的那样,海量资源无脑砸出的大模型真的会一直那么香吗? 目前一群来自 NYU 的研究员甚至在全网公开发起百万悬赏,征集大模型反规模效应的案例 (Inverse Scaling Prize) [1] !

先来简单了解下背景历史。所谓的 Inverse Scaling 即大名鼎鼎的 Scaling Law [2] 的反例,该定律由 OpenAI 于 2020 年初提出,主要贡献是通过实验证明:向神经网络输入的数据越多,这些网络的表现就越好。

其中该论文中经典的八大结论让小编刀刀印象深刻(强烈推荐去看一看他的实验图表):

  1. 模型架构不重要,重要的是 模型参数 N训练数据 D计算量 C
  2. N, D, C 和 loss 之间存在 线性关系
  3. 过拟合? 增加模型参数或是扩大数据集即可避免;
  4. 大模型的 训练时长是可预测的
  5. 大模型 few-shot 表现更好
  6. 大模型的表现 总是好于或不差于小模型;
  7. 算力有限时, 有策略地训练大模型是一步妙手;
  8. 可通过计算得到一个 优化的 batch size 使其收敛。

基于这篇文章提供的理论依据,很多大团队在“更多数据,更广领域”的道路上一脚油门踩到底,数据军备、算力军备竞赛打得如火如荼。而另一边,广大小公司空有一堆待赋能的 AI 场景,却只能眼巴巴地在看着巨头烧钱,自己根本玩不起这个越来越昂贵的玩具。

(xx平台云训练云部署服务广告位招租,长期有效)

时间来到了 2022 年,被爆炒了两年的“唯数据论”“唯参数论”渐渐开始被质疑,尤其是在对话生成领域中,老生常谈的“机器偏见”问题依旧存在,并且实践证明这并不是简单地堆砌数据和资源就能解决的。例如,基于 GPT-3 的聊天机器人 Replika 曾表示,新冠病毒是比尔盖茨发明的,新冠病毒疫苗的效果并不好。

本次 Inverse Scaling Prize 的主办单位 Anthropic 正是看到了这个问题,因此他们设置了总计25万美金的奖金(折合约168万元人民币),去寻找哪些任务能证明 Scaling Law 并不是黄金定律,从而定位到一些当下大模型预训练中的一些问题。

本次比赛第一轮投稿截止时间为 2022 年 8 月 27 日,想要凑个热闹的同学可以抓紧去他们主页上看看啦 [3][4]。

消息一出,在 reddit 原贴下方引起一片网友的热烈讨论:

有化学医药的网友表示,大模型的确在他的小样本数据集上表现较差,非常容易过拟合。他甚至一度怀疑是不是因为化学太难了以至于基于人类的语言模型难以学习,但是主办方表示这也许也可能是因为训练数据太少而导致的。

还有网友提问,他手头的项目里 word2vec 要比 BERT 做词嵌入 word embedding 效果好很多,这是否符合要求呢?

其实这也不算数。只要这位网友认真了解过 Scaling Law 就能知道,文中讨论的参数不包含 embedding,即原文中的模型参数都指代 non-embedding parameters。

面对着巨额奖金的诱惑,有的网友开始动起了歪脑筋。例如有网友就提出不如咱们直接设计一个新的问答任务,任务目标就是“答非所问”。那么在这种情况下,大模型的表现理所应当会比小模型要好,从而在 loss 的计算上得到一个更“差”的表现。

其实这想法和小编刀刀的一个“杠精机器人”项目有点雷同,同样是扭曲一个正常对话过程中的目标。但是和刀刀实践后得到的结论不同,在当时的项目中大模型在少量样本 finetune 后依旧比小模型更能抬杠。

因此小编觉得,想要赢得奖金你不但需要设计一个有意义的实际问题,而且需要构造或者提供一部分数据去支持你发现 Inverse Scaling 。(即随着模型的增大 loss 也同样增大的现象)

听着很复杂?别担心,主办团队甚至为了准备了无代码版本的 GPT-3 Colab 资源 [5]!无需任何代码模型基础,对其他从业者十分友好!同时他们也详细描绘了相关任务的评估标准,其 Rubric 之规范程度简直让人梦回期末大作业。

他山之石可以攻玉。也许一些跨领域学科的业务需求可以为目前人工智能领域中的大模型困境提供意料之外的破局点。

那么事不宜迟,也请各位在围观之余多多转发评论。

说不定最终能斩获大奖的,就是各位朋友圈中的大佬呢?

后台回复关键词【入群

加入卖萌屋NLP、CV、搜推广与求职讨论群

 

[1] Inverse Scaling Prize (Reddit). https://www.reddit.com/r/MachineLearning/comments/vm2sti/n_inverse_scaling_prize_250k_in_prizes_for/

[2] Scaling Laws for Neural Language Models.  https://arxiv.org/abs/2001.08361

[3] Inverse Scaling Prize (Github). https://github.com/inverse-scaling/prize

[4] Inverse Scaling Prize (Slack). https://join.slack.com/t/inverse-scaling-prize/shared_invite/zt-1bxdxqtds-3CCbPLkaZH0UqIP9Bg2P~g

[5] Inverse Scaling GPT-3 Colab. https://colab.research.google.com/drive/1SGmUh0NbqSrRkWRUcmjg8BS5eU5qvJ0Y#scrollTo=zoaYc0nsfOIC

登录查看更多
0

相关内容

大模型是基于海量多源数据打造的预训练模型,是对原有算法模型的技术升级和产品迭代,用户可通过开源或开放API/工具等形式进行模型零样本/小样本数据学习,以实现更优的识别、理解、决策、生成效果和更低成本的开发部署方案。
1370亿参数、接近人类水平,谷歌对话AI模型LaMDA放出论文
专知会员服务
29+阅读 · 2020年9月18日
【KDD2020-UCLA-微软】GPT-GNN:图神经网络的预训练
专知会员服务
62+阅读 · 2020年8月19日
【ACL2020-Google】逆向工程配置的神经文本生成模型
专知会员服务
16+阅读 · 2020年4月20日
专知会员服务
44+阅读 · 2020年3月6日
清华陈丹琦:如何让「大模型」变小
THU数据派
11+阅读 · 2022年7月28日
黑箱优化:大规模语言模型的一种落地方式
PaperWeekly
0+阅读 · 2022年1月20日
如何提升大规模Transformer的训练效果?Primer给出答案
夕小瑶的卖萌屋
0+阅读 · 2021年10月29日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2022年8月31日
Arxiv
13+阅读 · 2019年1月26日
Arxiv
17+阅读 · 2018年4月2日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员