最近的GPT-3模型仅利用自然语言提示和一些任务演示作为输入上下文,就实现了显著的少样本学习性能。受该工作的发现启发,作者在一个更实际的场景中研究了少次学习,我们使用更小的语言模型,以便在微调时更具有计算效率。我们提出了LM-BFF——更好的面向语言模型的少样本微调,这是一套简单且互补的技术,用于在少量带注释的示例上微调语言模型。我们的方法包括:(1)基于提示的微调,以及一个自动化提示生成的新管道;(2)动态和有选择地将演示整合到每个上下文中的精炼策略。最后,我们提出了一个系统的评价,以分析在一系列的自然语言处理任务的少数射击性能,包括分类和回归。我们的实验表明,在这种低资源设置下,我们的方法结合起来显著优于标准微调程序,实现了高达30%的绝对改进,在所有任务中平均达到11%。我们的方法对任务资源和领域专家知识做了最小的假设,因此构成了一个强大的任务不可知的方法,用于少样本学习。

https://www.zhuanzhi.ai/paper/8e74c666bc3760903ca59fe301bf7493

成为VIP会员查看完整内容
31

相关内容

近年来,预训练模型(例如ELMo、GPT、BERT和XLNet等)的快速发展大幅提升了诸多NLP任务的整体水平,同时也使得很多应用场景进入到实际落地阶段。预训练语言模型本身就是神经网络语言模型,它的特点包括:第一,可以使用大规模无标注纯文本语料进行训练;第二,可以用于各类下游NLP任务,不是针对某项定制的,但以后可用在下游NIP任务上,你不需要为下游任务专门设计一种神经网络,或者提供一种结构,直接在几种给定的固定框架中选择一种进行 fine-tune,就可以从而得到很好的结果。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
【清华大学】图神经网络交通流预测综述论文,19页pdf
专知会员服务
49+阅读 · 2021年1月29日
AAAI2021 | 学习预训练图神经网络
专知会员服务
114+阅读 · 2021年1月28日
最新《弱监督预训练语言模型微调》报告,52页ppt
专知会员服务
37+阅读 · 2020年12月26日
【GPT-3作者亲解】超大型语言模型少样本学习,109页ppt
专知会员服务
106+阅读 · 2020年12月19日
专知会员服务
34+阅读 · 2020年11月29日
【NeurIPS2020】图网的主邻域聚合
专知会员服务
32+阅读 · 2020年9月27日
【ICML2020】统一预训练伪掩码语言模型
专知会员服务
25+阅读 · 2020年7月23日
【ACL2020-Allen AI】预训练语言模型中的无监督域聚类
专知会员服务
23+阅读 · 2020年4月7日
【普林斯顿大学-微软】加权元学习,Weighted Meta-Learning
专知会员服务
39+阅读 · 2020年3月25日
多项NLP任务新SOTA,Facebook提出预训练模型BART
机器之心
22+阅读 · 2019年11月4日
元学习(Meta-Learning) 综述及五篇顶会论文推荐
中文版-BERT-预训练的深度双向Transformer语言模型-详细介绍
ELMo的朋友圈:预训练语言模型真的一枝独秀吗?
Arxiv
1+阅读 · 2021年3月1日
Arxiv
4+阅读 · 2019年12月2日
VIP会员
相关VIP内容
【清华大学】图神经网络交通流预测综述论文,19页pdf
专知会员服务
49+阅读 · 2021年1月29日
AAAI2021 | 学习预训练图神经网络
专知会员服务
114+阅读 · 2021年1月28日
最新《弱监督预训练语言模型微调》报告,52页ppt
专知会员服务
37+阅读 · 2020年12月26日
【GPT-3作者亲解】超大型语言模型少样本学习,109页ppt
专知会员服务
106+阅读 · 2020年12月19日
专知会员服务
34+阅读 · 2020年11月29日
【NeurIPS2020】图网的主邻域聚合
专知会员服务
32+阅读 · 2020年9月27日
【ICML2020】统一预训练伪掩码语言模型
专知会员服务
25+阅读 · 2020年7月23日
【ACL2020-Allen AI】预训练语言模型中的无监督域聚类
专知会员服务
23+阅读 · 2020年4月7日
【普林斯顿大学-微软】加权元学习,Weighted Meta-Learning
专知会员服务
39+阅读 · 2020年3月25日
微信扫码咨询专知VIP会员