Fine-tuning BERT-based models is resource-intensive in memory, computation, and time. While many prior works aim to improve inference efficiency via compression techniques, e.g., pruning, these works do not explicitly address the computational challenges of training to downstream tasks. We introduce Learner modules and priming, novel methods for fine-tuning that exploit the overparameterization of pre-trained language models to gain benefits in convergence speed and resource utilization. Learner modules navigate the double bind of 1) training efficiently by fine-tuning a subset of parameters, and 2) training effectively by ensuring quick convergence and high metric scores. Our results on DistilBERT demonstrate that learners perform on par with or surpass the baselines. Learners train 7x fewer parameters than state-of-the-art methods on GLUE. On CoLA, learners fine-tune 20% faster, and have significantly lower resource utilization.


翻译:在记忆、计算和资源利用方面,基于BERT的微调模型需要大量资源。虽然许多先前的工作都旨在通过压缩技术(例如裁剪)提高推论效率,但这些工程并没有明确地解决对下游任务培训的计算挑战。我们引入了学习者模块和尖锐的微调新方法,利用预先培训的语言模型的超度分法来获得趋同速度和资源利用方面的效益。学习者模块通过微调一组参数来有效处理1)培训的双重约束,以及2)通过确保快速趋同和高分的有效培训。我们关于DistillBERT的研究结果表明,学习者的表现与基线相同或超过基准。学习者在GLUE上培训比最先进的方法少7x参数。关于COLA,学习者们的微调率为20%,而且资源利用率低得多。

0
下载
关闭预览

相关内容

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
111+阅读 · 2020年3月18日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
34+阅读 · 2019年10月17日
[综述]深度学习下的场景文本检测与识别
专知会员服务
58+阅读 · 2019年10月10日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
46+阅读 · 2019年9月29日
ACM MM 2022 Call for Papers
CCF多媒体专委会
3+阅读 · 3月29日
ACM TOMM Call for Papers
CCF多媒体专委会
0+阅读 · 3月23日
AIART 2022 Call for Papers
CCF多媒体专委会
0+阅读 · 2月13日
【ICIG2021】Latest News & Announcements of the Workshop
中国图象图形学学会CSIG
0+阅读 · 2021年12月20日
【ICIG2021】Latest News & Announcements of the Plenary Talk1
中国图象图形学学会CSIG
0+阅读 · 2021年11月1日
RoBERTa中文预训练模型:RoBERTa for Chinese
PaperWeekly
53+阅读 · 2019年9月16日
Transferring Knowledge across Learning Processes
CreateAMind
11+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
34+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
10+阅读 · 2018年12月24日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Arxiv
13+阅读 · 2021年6月15日
VIP会员
相关资讯
ACM MM 2022 Call for Papers
CCF多媒体专委会
3+阅读 · 3月29日
ACM TOMM Call for Papers
CCF多媒体专委会
0+阅读 · 3月23日
AIART 2022 Call for Papers
CCF多媒体专委会
0+阅读 · 2月13日
【ICIG2021】Latest News & Announcements of the Workshop
中国图象图形学学会CSIG
0+阅读 · 2021年12月20日
【ICIG2021】Latest News & Announcements of the Plenary Talk1
中国图象图形学学会CSIG
0+阅读 · 2021年11月1日
RoBERTa中文预训练模型:RoBERTa for Chinese
PaperWeekly
53+阅读 · 2019年9月16日
Transferring Knowledge across Learning Processes
CreateAMind
11+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
34+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
10+阅读 · 2018年12月24日
相关基金
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员