This paper is a study of fine-tuning of BERT contextual representations, with focus on commonly observed instabilities in few-sample scenarios. We identify several factors that cause this instability: the common use of a non-standard optimization method with biased gradient estimation; the limited applicability of significant parts of the BERT network for down-stream tasks; and the prevalent practice of using a pre-determined, and small number of training iterations. We empirically test the impact of these factors, and identify alternative practices that resolve the commonly observed instability of the process. In light of these observations, we re-visit recently proposed methods to improve few-sample fine-tuning with BERT and re-evaluate their effectiveness. Generally, we observe the impact of these methods diminishes significantly with our modified process.


翻译:本文是对生物、生物、生物和毒素武器领域背景介绍的微调研究,重点是少数典型情景中常见的不稳定性。我们指出造成这种不稳定的几种因素:普遍使用非标准优化方法,有偏差梯度估计;生物、生物、生物和毒素武器领域网络大部分部分对下游任务的适用性有限;使用预先确定和少量培训迭代的普遍做法。我们从经验上检验这些因素的影响,并找出解决经常观察到的进程不稳定的替代做法。根据这些意见,我们最近重新审视了改进与生物、生物和毒素武器领域专家组的少量微调并重新评估其有效性的方法。一般来说,我们观察到这些方法的影响随着我们经过修改的过程而大大减弱。

0
下载
关闭预览

相关内容

预训练语言模型fine-tuning近期进展概述
专知会员服务
37+阅读 · 2021年4月9日
最新《Transformers模型》教程,64页ppt
专知会员服务
305+阅读 · 2020年11月26日
BERT进展2019四篇必读论文
专知会员服务
67+阅读 · 2020年1月2日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
58+阅读 · 2019年10月17日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
103+阅读 · 2019年10月9日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
RoBERTa中文预训练模型:RoBERTa for Chinese
PaperWeekly
57+阅读 · 2019年9月16日
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Arxiv
19+阅读 · 2021年4月8日
How to Fine-Tune BERT for Text Classification?
Arxiv
13+阅读 · 2019年5月14日
Arxiv
12+阅读 · 2019年2月28日
Arxiv
4+阅读 · 2019年2月18日
Conditional BERT Contextual Augmentation
Arxiv
8+阅读 · 2018年12月17日
Arxiv
8+阅读 · 2018年11月21日
VIP会员
相关VIP内容
预训练语言模型fine-tuning近期进展概述
专知会员服务
37+阅读 · 2021年4月9日
最新《Transformers模型》教程,64页ppt
专知会员服务
305+阅读 · 2020年11月26日
BERT进展2019四篇必读论文
专知会员服务
67+阅读 · 2020年1月2日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
58+阅读 · 2019年10月17日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
103+阅读 · 2019年10月9日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
相关资讯
RoBERTa中文预训练模型:RoBERTa for Chinese
PaperWeekly
57+阅读 · 2019年9月16日
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
相关论文
Arxiv
19+阅读 · 2021年4月8日
How to Fine-Tune BERT for Text Classification?
Arxiv
13+阅读 · 2019年5月14日
Arxiv
12+阅读 · 2019年2月28日
Arxiv
4+阅读 · 2019年2月18日
Conditional BERT Contextual Augmentation
Arxiv
8+阅读 · 2018年12月17日
Arxiv
8+阅读 · 2018年11月21日
Top
微信扫码咨询专知VIP会员