Fine-tuning pre-trained transformer-based language models such as BERT has become a common practice dominating leaderboards across various NLP benchmarks. Despite the strong empirical performance of fine-tuned models, fine-tuning is an unstable process: training the same model with multiple random seeds can result in a large variance of the task performance. Previous literature (Devlin et al., 2019; Lee et al., 2020; Dodge et al., 2020) identified two potential reasons for the observed instability: catastrophic forgetting and small size of the fine-tuning datasets. In this paper, we show that both hypotheses fail to explain the fine-tuning instability. We analyze BERT, RoBERTa, and ALBERT, fine-tuned on commonly used datasets from the GLUE benchmark, and show that the observed instability is caused by optimization difficulties that lead to vanishing gradients. Additionally, we show that the remaining variance of the downstream task performance can be attributed to differences in generalization where fine-tuned models with the same training loss exhibit noticeably different test performance. Based on our analysis, we present a simple but strong baseline that makes fine-tuning BERT-based models significantly more stable than the previously proposed approaches. Code to reproduce our results is available online: https://github.com/uds-lsv/bert-stable-fine-tuning.


翻译:尽管微调模型的经验性表现很强,但微调是一个不稳定的过程:用多种随机种子对同一模型进行训练可能导致任务性能的巨大差异。以前的文献(Devlin等人,2019年;Lee等人,2020年;Dawdge等人,2020年)确定了观察到不稳定的两种潜在原因:灾难性的遗忘和微调数据集规模小;在本文件中,我们表明两种假设都无法解释微调不稳定性。我们分析了BERT、RoBERTA和ALBERT,对GLUE基准中常用数据集进行了微调,并表明观察到的不稳定性是由导致梯度消失的优化困难造成的。此外,我们表明下游任务性能的剩余差异可归因于一般化的差异,因为微调模型与同样的培训损失显示了明显的不同测试性业绩。我们根据我们的分析,我们提出了一个简单但有力的基准,即我们提出的精细化的模型比以往的Supild/ABERBS。我们提出的在线模型更加稳定。我们提出的标准是:稳定地复制/ABS。

0
下载
关闭预览

相关内容

预训练语言模型fine-tuning近期进展概述
专知会员服务
39+阅读 · 2021年4月9日
专知会员服务
161+阅读 · 2020年1月16日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
103+阅读 · 2019年10月9日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
AI可解释性文献列表
专知
42+阅读 · 2019年10月7日
RoBERTa中文预训练模型:RoBERTa for Chinese
PaperWeekly
57+阅读 · 2019年9月16日
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
逆强化学习-学习人先验的动机
CreateAMind
16+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
Optimizing Deeper Transformers on Small Datasets
Arxiv
0+阅读 · 2021年5月19日
Arxiv
6+阅读 · 2019年9月4日
VIP会员
相关资讯
Top
微信扫码咨询专知VIP会员