【普林斯顿陈丹琦团队】使预训练语言模型成为更好的少样本学习器 - 专知VIP

会员服务 ·

4

预训练语言模型 · 少样本学习 · GPT-3 ·

2021 年 1 月 4 日

【普林斯顿陈丹琦团队】使预训练语言模型成为更好的少样本学习器

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

最近的GPT-3模型仅利用自然语言提示和一些任务演示作为输入上下文，就实现了显著的少样本学习性能。受该工作的发现启发，作者在一个更实际的场景中研究了少次学习，我们使用更小的语言模型，以便在微调时更具有计算效率。我们提出了LM-BFF——更好的面向语言模型的少样本微调，这是一套简单且互补的技术，用于在少量带注释的示例上微调语言模型。我们的方法包括:(1)基于提示的微调，以及一个自动化提示生成的新管道;(2)动态和有选择地将演示整合到每个上下文中的精炼策略。最后，我们提出了一个系统的评价，以分析在一系列的自然语言处理任务的少数射击性能，包括分类和回归。我们的实验表明，在这种低资源设置下，我们的方法结合起来显著优于标准微调程序，实现了高达30%的绝对改进，在所有任务中平均达到11%。我们的方法对任务资源和领域专家知识做了最小的假设，因此构成了一个强大的任务不可知的方法，用于少样本学习。

https://www.zhuanzhi.ai/paper/8e74c666bc3760903ca59fe301bf7493

成为VIP会员查看完整内容

32

相关内容

预训练语言模型

预训练语言模型

近年来，预训练模型（例如ELMo、GPT、BERT和XLNet等）的快速发展大幅提升了诸多NLP任务的整体水平，同时也使得很多应用场景进入到实际落地阶段。预训练语言模型本身就是神经网络语言模型，它的特点包括：第一，可以使用大规模无标注纯文本语料进行训练；第二，可以用于各类下游NLP任务，不是针对某项定制的，但以后可用在下游NIP任务上，你不需要为下游任务专门设计一种神经网络，或者提供一种结构，直接在几种给定的固定框架中选择一种进行 fine-tune，就可以从而得到很好的结果。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等

【清华大学】图神经网络交通流预测综述论文，19页pdf

【清华大学】图神经网络交通流预测综述论文，19页pdf

专知会员服务

50+阅读 · 2021年1月29日

AAAI2021 | 学习预训练图神经网络

AAAI2021 | 学习预训练图神经网络

专知会员服务

116+阅读 · 2021年1月28日

最新《弱监督预训练语言模型微调》报告，52页ppt

最新《弱监督预训练语言模型微调》报告，52页ppt

专知会员服务

38+阅读 · 2020年12月26日

【GPT-3作者亲解】超大型语言模型少样本学习，109页ppt

【GPT-3作者亲解】超大型语言模型少样本学习，109页ppt

专知会员服务

109+阅读 · 2020年12月19日

【WSDM 2021】面向信息检索的预训练语言模型

专知会员服务

36+阅读 · 2020年11月29日

【NeurIPS2020】图网的主邻域聚合

【NeurIPS2020】图网的主邻域聚合

专知会员服务

33+阅读 · 2020年9月27日

字节跳动李航提出AMBERT！超越BERT！多粒度token预训练语言模型

字节跳动李航提出AMBERT！超越BERT！多粒度token预训练语言模型

专知会员服务

41+阅读 · 2020年8月31日

【ICML2020】统一预训练伪掩码语言模型

【ICML2020】统一预训练伪掩码语言模型

专知会员服务

27+阅读 · 2020年7月23日

【ACL2020-Allen AI】预训练语言模型中的无监督域聚类

【ACL2020-Allen AI】预训练语言模型中的无监督域聚类

专知会员服务

24+阅读 · 2020年4月7日

【普林斯顿大学-微软】加权元学习，Weighted Meta-Learning

【普林斯顿大学-微软】加权元学习，Weighted Meta-Learning

专知会员服务

40+阅读 · 2020年3月25日

字节跳动李航提出AMBERT！超越BERT！多粒度token预训练语言模型

字节跳动李航提出AMBERT！超越BERT！多粒度token预训练语言模型

专知

18+阅读 · 2020年8月31日

【CVPR2020-北京大学】自适应间隔损失的提升小样本学习

【CVPR2020-北京大学】自适应间隔损失的提升小样本学习

专知

12+阅读 · 2020年6月9日

普林斯顿大学陈丹琦主讲COS484: 自然语言处理课程

普林斯顿大学陈丹琦主讲COS484: 自然语言处理课程

专知

6+阅读 · 2019年12月11日

NAACL 2019 | 注意力模仿：通过关注上下文来更好地嵌入单词

NAACL 2019 | 注意力模仿：通过关注上下文来更好地嵌入单词

AI科技评论

4+阅读 · 2019年11月12日

多项NLP任务新SOTA，Facebook提出预训练模型BART

多项NLP任务新SOTA，Facebook提出预训练模型BART

机器之心

22+阅读 · 2019年11月4日

微软亚研提出VL-BERT：通用的视觉-语言预训练模型

微软亚研提出VL-BERT：通用的视觉-语言预训练模型

机器之心

15+阅读 · 2019年9月3日

开发 | 谷歌更强NLP模型XLNet开源：20项任务全面碾压BERT！

开发 | 谷歌更强NLP模型XLNet开源：20项任务全面碾压BERT！

AI科技评论

6+阅读 · 2019年6月20日

元学习(Meta-Learning) 综述及五篇顶会论文推荐

元学习(Meta-Learning) 综述及五篇顶会论文推荐

专知

194+阅读 · 2019年4月14日

中文版-BERT-预训练的深度双向Transformer语言模型-详细介绍

中文版-BERT-预训练的深度双向Transformer语言模型-详细介绍

深度学习与NLP

30+阅读 · 2019年3月30日

ELMo的朋友圈：预训练语言模型真的一枝独秀吗？

ELMo的朋友圈：预训练语言模型真的一枝独秀吗？

机器之心

10+阅读 · 2019年1月1日

Meta Pseudo Labels

Arxiv

1+阅读 · 2021年3月1日

Accelerated Zeroth-Order and First-Order Momentum Methods from Mini to Minimax Optimization

Accelerated Zeroth-Order and First-Order Momentum Methods from Mini to Minimax Optimization

Arxiv

0+阅读 · 2021年3月1日

Dados Abertos Governamentais no contexto de Políticas Públicas de Saúde e Sistemas Prisionais: Realidade ou Utopia?

Arxiv

0+阅读 · 2021年2月28日

Efficient Client Contribution Evaluation for Horizontal Federated Learning

Arxiv

0+阅读 · 2021年2月26日

Making Pre-trained Language Models Better Few-shot Learners

Arxiv

14+阅读 · 2020年12月31日

Multi-Scale Self-Attention for Text Classification

Arxiv

4+阅读 · 2019年12月2日

Story Realization: Expanding Plot Events into Sentences

Arxiv

3+阅读 · 2019年9月8日

Attention Is (not) All You Need for Commonsense Reasoning

Arxiv

7+阅读 · 2019年5月31日

Towards Understanding Acceleration Tradeoff between Momentum and Asynchrony in Nonconvex Stochastic Optimization

Arxiv

3+阅读 · 2018年10月1日

Accelerated Randomized Coordinate Descent Algorithms for Stochastic Optimization and Online Learning

Arxiv

9+阅读 · 2018年7月16日

VIP会员

相关主题

预训练语言模型

少样本学习

相关VIP内容

【清华大学】图神经网络交通流预测综述论文，19页pdf

【清华大学】图神经网络交通流预测综述论文，19页pdf

专知会员服务

50+阅读 · 2021年1月29日

AAAI2021 | 学习预训练图神经网络

AAAI2021 | 学习预训练图神经网络

专知会员服务

116+阅读 · 2021年1月28日

最新《弱监督预训练语言模型微调》报告，52页ppt

最新《弱监督预训练语言模型微调》报告，52页ppt

专知会员服务

38+阅读 · 2020年12月26日

【GPT-3作者亲解】超大型语言模型少样本学习，109页ppt

【GPT-3作者亲解】超大型语言模型少样本学习，109页ppt

专知会员服务

109+阅读 · 2020年12月19日

【WSDM 2021】面向信息检索的预训练语言模型

专知会员服务

36+阅读 · 2020年11月29日

【NeurIPS2020】图网的主邻域聚合

【NeurIPS2020】图网的主邻域聚合

专知会员服务

33+阅读 · 2020年9月27日

字节跳动李航提出AMBERT！超越BERT！多粒度token预训练语言模型

字节跳动李航提出AMBERT！超越BERT！多粒度token预训练语言模型

专知会员服务

41+阅读 · 2020年8月31日

【ICML2020】统一预训练伪掩码语言模型

【ICML2020】统一预训练伪掩码语言模型

专知会员服务

27+阅读 · 2020年7月23日

【ACL2020-Allen AI】预训练语言模型中的无监督域聚类

【ACL2020-Allen AI】预训练语言模型中的无监督域聚类

专知会员服务

24+阅读 · 2020年4月7日

【普林斯顿大学-微软】加权元学习，Weighted Meta-Learning

【普林斯顿大学-微软】加权元学习，Weighted Meta-Learning

专知会员服务

40+阅读 · 2020年3月25日

热门VIP内容

开通专知VIP会员享更多权益服务

《战区安全决策课程体系》最新244页

《"无人机航母"原型平台》

任务规划与地形分析：现代复杂环境作战导航体系

《攻击场景描述形式化模型研究》

相关资讯

字节跳动李航提出AMBERT！超越BERT！多粒度token预训练语言模型

字节跳动李航提出AMBERT！超越BERT！多粒度token预训练语言模型

专知

18+阅读 · 2020年8月31日

【CVPR2020-北京大学】自适应间隔损失的提升小样本学习

【CVPR2020-北京大学】自适应间隔损失的提升小样本学习

专知

12+阅读 · 2020年6月9日

普林斯顿大学陈丹琦主讲COS484: 自然语言处理课程

普林斯顿大学陈丹琦主讲COS484: 自然语言处理课程

专知

6+阅读 · 2019年12月11日

NAACL 2019 | 注意力模仿：通过关注上下文来更好地嵌入单词

NAACL 2019 | 注意力模仿：通过关注上下文来更好地嵌入单词

AI科技评论

4+阅读 · 2019年11月12日

多项NLP任务新SOTA，Facebook提出预训练模型BART

多项NLP任务新SOTA，Facebook提出预训练模型BART

机器之心

22+阅读 · 2019年11月4日

微软亚研提出VL-BERT：通用的视觉-语言预训练模型

微软亚研提出VL-BERT：通用的视觉-语言预训练模型

机器之心

15+阅读 · 2019年9月3日

开发 | 谷歌更强NLP模型XLNet开源：20项任务全面碾压BERT！

开发 | 谷歌更强NLP模型XLNet开源：20项任务全面碾压BERT！

AI科技评论

6+阅读 · 2019年6月20日

元学习(Meta-Learning) 综述及五篇顶会论文推荐

元学习(Meta-Learning) 综述及五篇顶会论文推荐

专知

194+阅读 · 2019年4月14日

中文版-BERT-预训练的深度双向Transformer语言模型-详细介绍

中文版-BERT-预训练的深度双向Transformer语言模型-详细介绍

深度学习与NLP

30+阅读 · 2019年3月30日

ELMo的朋友圈：预训练语言模型真的一枝独秀吗？

ELMo的朋友圈：预训练语言模型真的一枝独秀吗？

机器之心

10+阅读 · 2019年1月1日

相关论文

Meta Pseudo Labels

Arxiv

1+阅读 · 2021年3月1日

Accelerated Zeroth-Order and First-Order Momentum Methods from Mini to Minimax Optimization

Accelerated Zeroth-Order and First-Order Momentum Methods from Mini to Minimax Optimization

Arxiv

0+阅读 · 2021年3月1日

Dados Abertos Governamentais no contexto de Políticas Públicas de Saúde e Sistemas Prisionais: Realidade ou Utopia?

Arxiv

0+阅读 · 2021年2月28日

Efficient Client Contribution Evaluation for Horizontal Federated Learning

Arxiv

0+阅读 · 2021年2月26日

Making Pre-trained Language Models Better Few-shot Learners

Arxiv

14+阅读 · 2020年12月31日

Multi-Scale Self-Attention for Text Classification

Arxiv

4+阅读 · 2019年12月2日

Story Realization: Expanding Plot Events into Sentences

Arxiv

3+阅读 · 2019年9月8日

Attention Is (not) All You Need for Commonsense Reasoning

Arxiv

7+阅读 · 2019年5月31日

Towards Understanding Acceleration Tradeoff between Momentum and Asynchrony in Nonconvex Stochastic Optimization

Arxiv

3+阅读 · 2018年10月1日

Accelerated Randomized Coordinate Descent Algorithms for Stochastic Optimization and Online Learning

Arxiv

9+阅读 · 2018年7月16日

微信扫码咨询专知VIP会员