GPT-3: Few-Shot Learning with a Giant Language Model

最近的工作表明,通过对大量文本语料库进行预训练,然后对特定任务进行微调,在许多NLP任务和基准测试方面取得了实质性进展。虽然这种方法在架构中通常与任务无关,但它仍然需要成千上万个样例的特定于任务的微调数据集。相比之下,人类通常只通过几个例子或简单的指令就能完成一项新的语言任务——这是目前的NLP系统在很大程度上难以做到的。我将讨论GPT-3,这是一种具有1750亿个参数的自回归语言模型,它演示了如何扩大语言模型可以极大地改善与任务无关的、少样本的性能,有时甚至可以达到与先前的最先进的微调方法相媲美的竞争力。GPT-3可以应用于没有任何渐变更新或微调的任务,与少数样本演示指定纯粹通过文本与模型的交互。我将概述GPT-3是什么以及它是如何工作的,讨论我们从这样一个系统中看到的功能,以及它们如何启用与语言模型交互的新方式,此外还将关注这些交互带来的局限性和更广泛的问题。

https://nlp.stanford.edu/seminar/details/melaniesubbiah.shtml

成为VIP会员查看完整内容
107

相关内容

最新《弱监督预训练语言模型微调》报告,52页ppt
专知会员服务
37+阅读 · 2020年12月26日
【NeurIPS2020】因果推断学习教程,70页ppt
专知会员服务
190+阅读 · 2020年12月12日
NeurIPS2020最新《深度对话人工智能》教程,130页ppt
专知会员服务
41+阅读 · 2020年12月10日
少即是多?非参数语言模型,68页ppt
专知会员服务
23+阅读 · 2020年11月22日
【纽约大学Sean】神经文本退化:一致性和学习,93页ppt
专知会员服务
15+阅读 · 2020年10月18日
【牛津大学&DeepMind】自监督学习教程,141页ppt
专知会员服务
179+阅读 · 2020年5月29日
少标签数据学习,54页ppt
专知会员服务
198+阅读 · 2020年5月22日
基于深度元学习的因果推断新方法
图与推荐
11+阅读 · 2020年7月21日
多项NLP任务新SOTA,Facebook提出预训练模型BART
机器之心
22+阅读 · 2019年11月4日
3分钟看懂史上最强NLP模型BERT
机器学习算法与Python学习
8+阅读 · 2019年2月27日
Semantic Hypergraphs
Arxiv
0+阅读 · 2021年2月18日
Arxiv
8+阅读 · 2019年3月21日
Arxiv
7+阅读 · 2018年6月8日
VIP会员
相关VIP内容
最新《弱监督预训练语言模型微调》报告,52页ppt
专知会员服务
37+阅读 · 2020年12月26日
【NeurIPS2020】因果推断学习教程,70页ppt
专知会员服务
190+阅读 · 2020年12月12日
NeurIPS2020最新《深度对话人工智能》教程,130页ppt
专知会员服务
41+阅读 · 2020年12月10日
少即是多?非参数语言模型,68页ppt
专知会员服务
23+阅读 · 2020年11月22日
【纽约大学Sean】神经文本退化:一致性和学习,93页ppt
专知会员服务
15+阅读 · 2020年10月18日
【牛津大学&DeepMind】自监督学习教程,141页ppt
专知会员服务
179+阅读 · 2020年5月29日
少标签数据学习,54页ppt
专知会员服务
198+阅读 · 2020年5月22日
微信扫码咨询专知VIP会员