OpenAI在昨天悄然放出了GPT第三代——《Language Models are Few-Shot Learners》。刷遍Twitter!史无前例!论文介绍了GPT-3这是一种由1750亿个参数组成的最先进的语言模型。论文由32位作者72页pdf。

最近的工作表明,通过对大量文本进行预训练,然后对特定任务进行微调,在许多NLP任务和基准测试方面取得了巨大的进展。尽管这种方法在架构中通常与任务无关,但它仍然需要成千上万个特定于任务的实例微调数据集。相比之下,人类通常只需要几个例子或简单的指令就可以完成一项新的语言任务——这是目前的NLP系统仍然难以做到的。在这里,我们展示了扩展语言模型极大地提高了任务无关性、低命中率的性能,有时甚至达到了与先前最先进的微调方法的匹配性能。具体来说,我们训练了一个带有1750亿个参数的自回归语言模型GPT-3,比以前任何非稀疏语言模型都多10倍,并在小样本设置下测试了它的性能。对于所有任务,GPT-3的应用没有任何梯度更新或微调,任务和小样本演示指定纯粹通过与模型的文本交互。GPT-3在许多NLP数据集上实现了强大的性能,包括翻译、问答和完形填空任务,以及一些需要即时推理或领域适应的任务,如整理单词、在句子中使用新单词或执行3位算术。同时,我们还确定了一些数据集,其中GPT-3的小样本学习仍然效果不佳,以及一些数据集,其中GPT-3面临着与大型web语料库上的训练有关的方法问题。最后,我们发现GPT-3可以生成新闻文章的样本,这些文章是人类评价者难以区分的。我们讨论了这个发现和一般的GPT-3的更广泛的社会影响。

GPT-3的主要目标是用更少的领域数据、且不经过精调步骤去解决问题。

为了达到上述目的,作者们用预训练好的GPT-3探索了不同输入形式下的推理效果。

这里的Zero-shot、One-shot、Few-shot都是完全不需要精调的,因为GPT-3是单向transformer,在预测新的token时会对之前的examples进行编码。

作者们训练了以下几种尺寸的模型进行对比:

实验证明Few-shot下GPT-3有很好的表现:

最重要的是,GPT-3在Few-shot设定下,在部分NLU任务上超越了当前Fine-tuning的SOTA。

成为VIP会员查看完整内容
72

相关内容

近年来,预训练模型(例如ELMo、GPT、BERT和XLNet等)的快速发展大幅提升了诸多NLP任务的整体水平,同时也使得很多应用场景进入到实际落地阶段。预训练语言模型本身就是神经网络语言模型,它的特点包括:第一,可以使用大规模无标注纯文本语料进行训练;第二,可以用于各类下游NLP任务,不是针对某项定制的,但以后可用在下游NIP任务上,你不需要为下游任务专门设计一种神经网络,或者提供一种结构,直接在几种给定的固定框架中选择一种进行 fine-tune,就可以从而得到很好的结果。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
【ACL2020-伯克利】预训练Transformer提高分布外鲁棒性
专知会员服务
19+阅读 · 2020年4月14日
谷歌 | 最新110亿参数的T5模型17项NLP任务霸榜SuperGLUE!
机器学习算法与Python学习
8+阅读 · 2019年10月27日
中文版-BERT-预训练的深度双向Transformer语言模型-详细介绍
3分钟看懂史上最强NLP模型BERT
新智元
23+阅读 · 2019年2月27日
迄今最大模型?OpenAI发布参数量高达15亿的通用语言模型GPT-2
中国人工智能学会
7+阅读 · 2019年2月15日
OpenAI提出Reptile:可扩展的元学习算法
深度学习世界
7+阅读 · 2018年3月9日
OpenAI发布大规模元学习算法Reptile
AI前线
6+阅读 · 2018年3月9日
Question Generation by Transformers
Arxiv
5+阅读 · 2019年9月14日
How to Fine-Tune BERT for Text Classification?
Arxiv
13+阅读 · 2019年5月14日
Arxiv
13+阅读 · 2019年1月26日
Paraphrase Generation with Deep Reinforcement Learning
Arxiv
6+阅读 · 2018年4月21日
Arxiv
10+阅读 · 2018年2月4日
Arxiv
3+阅读 · 2017年11月21日
VIP会员
相关VIP内容
【ACL2020-伯克利】预训练Transformer提高分布外鲁棒性
专知会员服务
19+阅读 · 2020年4月14日
相关资讯
相关论文
Question Generation by Transformers
Arxiv
5+阅读 · 2019年9月14日
How to Fine-Tune BERT for Text Classification?
Arxiv
13+阅读 · 2019年5月14日
Arxiv
13+阅读 · 2019年1月26日
Paraphrase Generation with Deep Reinforcement Learning
Arxiv
6+阅读 · 2018年4月21日
Arxiv
10+阅读 · 2018年2月4日
Arxiv
3+阅读 · 2017年11月21日
微信扫码咨询专知VIP会员