【普林斯顿陈丹琦团队】使预训练语言模型成为更好的少样本学习器

2021 年 1 月 4 日 专知

最近的GPT-3模型仅利用自然语言提示和一些任务演示作为输入上下文,就实现了显著的少样本学习性能。受该工作的发现启发,作者在一个更实际的场景中研究了少次学习,我们使用更小的语言模型,以便在微调时更具有计算效率。我们提出了LM-BFF——更好的面向语言模型的少样本微调,这是一套简单且互补的技术,用于在少量带注释的示例上微调语言模型。我们的方法包括:(1)基于提示的微调,以及一个自动化提示生成的新管道;(2)动态和有选择地将演示整合到每个上下文中的精炼策略。最后,我们提出了一个系统的评价,以分析在一系列的自然语言处理任务的少数射击性能,包括分类和回归。我们的实验表明,在这种低资源设置下,我们的方法结合起来显著优于标准微调程序,实现了高达30%的绝对改进,在所有任务中平均达到11%。我们的方法对任务资源和领域专家知识做了最小的假设,因此构成了一个强大的任务不可知的方法,用于少样本学习。


https://www.zhuanzhi.ai/paper/8e74c666bc3760903ca59fe301bf7493




专知便捷查看

便捷下载,请关注专知公众号(点击上方蓝色专知关注)

  • 后台回复“LMBF” 可以获取《【普林斯顿陈丹琦团队】使预训练语言模型成为更好的少样本学习器》专知下载链接索引

专知,专业可信的人工智能知识分发,让认知协作更快更好!欢迎注册登录专知www.zhuanzhi.ai,获取5000+AI主题干货知识资料!
欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程资料和与专家交流咨询
点击“ 阅读原文 ”,了解使用 专知 ,查看获取5000+AI主题知识资源
登录查看更多
0

相关内容

【GPT-3作者亲解】超大型语言模型少样本学习,109页ppt
专知会员服务
107+阅读 · 2020年12月19日
【ACL2020-Allen AI】预训练语言模型中的无监督域聚类
专知会员服务
23+阅读 · 2020年4月7日
图神经网络推理,27页ppt精炼讲解
专知
3+阅读 · 2020年4月24日
Arxiv
8+阅读 · 2020年10月7日
Arxiv
6+阅读 · 2020年4月14日
Contrastive Representation Distillation
Arxiv
5+阅读 · 2019年10月23日
Arxiv
6+阅读 · 2019年8月22日
Arxiv
5+阅读 · 2019年4月21日
Arxiv
4+阅读 · 2019年2月18日
Arxiv
10+阅读 · 2018年2月17日
VIP会员
相关论文
Arxiv
8+阅读 · 2020年10月7日
Arxiv
6+阅读 · 2020年4月14日
Contrastive Representation Distillation
Arxiv
5+阅读 · 2019年10月23日
Arxiv
6+阅读 · 2019年8月22日
Arxiv
5+阅读 · 2019年4月21日
Arxiv
4+阅读 · 2019年2月18日
Arxiv
10+阅读 · 2018年2月17日
Top
微信扫码咨询专知VIP会员