The Lottery Ticket Hypothesis suggests that an over-parametrized network consists of "lottery tickets", and training a certain collection of them (i.e., a subnetwork) can match the performance of the full model. In this paper, we study such a collection of tickets, which is referred to as "winning tickets", in extremely over-parametrized models, e.g., pre-trained language models. We observe that at certain compression ratios, generalization performance of the winning tickets can not only match, but also exceed that of the full model. In particular, we observe a phase transition phenomenon: As the compression ratio increases, generalization performance of the winning tickets first improves then deteriorates after a certain threshold. We refer to the tickets on the threshold as "super tickets". We further show that the phase transition is task and model dependent -- as model size becomes larger and training data set becomes smaller, the transition becomes more pronounced. Our experiments on the GLUE benchmark show that the super tickets improve single task fine-tuning by $0.9$ points on BERT-base and $1.0$ points on BERT-large, in terms of task-average score. We also demonstrate that adaptively sharing the super tickets across tasks benefits multi-task learning.


翻译:“彩票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票价”的假设表明,过度平衡的网络网由“票票票票票票票票票票票票票票价”组成,培训前语言模型等极为均衡的票票票票票票票票票票票票票票票票票票票票价“票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票价”的“票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票票

0
下载
关闭预览

相关内容

开源书:PyTorch深度学习起步
专知会员服务
50+阅读 · 2019年10月11日
RoBERTa中文预训练模型:RoBERTa for Chinese
PaperWeekly
57+阅读 · 2019年9月16日
分布式并行架构Ray介绍
CreateAMind
9+阅读 · 2019年8月9日
Hierarchically Structured Meta-learning
CreateAMind
25+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
已删除
将门创投
3+阅读 · 2019年4月25日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
Arxiv
0+阅读 · 2021年7月15日
Arxiv
5+阅读 · 2019年8月22日
Arxiv
6+阅读 · 2019年3月19日
Attend More Times for Image Captioning
Arxiv
6+阅读 · 2018年12月8日
VIP会员
相关VIP内容
相关资讯
RoBERTa中文预训练模型:RoBERTa for Chinese
PaperWeekly
57+阅读 · 2019年9月16日
分布式并行架构Ray介绍
CreateAMind
9+阅读 · 2019年8月9日
Hierarchically Structured Meta-learning
CreateAMind
25+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
已删除
将门创投
3+阅读 · 2019年4月25日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
Top
微信扫码咨询专知VIP会员