大型基于Transformer的模型在各种自然语言处理和计算机视觉任务中表现出优越的性能。然而,这些模型包含大量的参数,这限制了它们在真实应用中的部署。为了减少模型的大小,研究人员根据权重的重要性评分对这些模型进行修剪。然而,这些分数通常是在训练过程中的小批量估计,由于小批量抽样和复杂的训练动态,这带来了很大的可变性/不确定性。由于这种不确定性,常用的修剪方法会对一些关键权重进行修剪,使得训练不稳定,不利于泛化。为了解决这一问题,我们提出了PLATON算法,该算法通过重要性估计的置信上限(upper confidence bound, UCB)来捕捉重要性得分的不确定性。特别是对于重要性得分低但不确定性高的权重,PLATON倾向于保留它们并探索它们的容量。我们在自然语言理解、问题回答和图像分类等多个基于transformer的模型上进行了大量实验,以验证PLATON的有效性。结果表明,在不同的稀疏度水平下,PLATON算法均有显著的改进。 https://arxiv.org/abs/2206.12562

成为VIP会员查看完整内容
13

相关内容

国际机器学习大会(International Conference on Machine Learning,简称ICML ) 是由国际机器学习学会(IMLS)主办的机器学习国际顶级会议,也是CCF-A类学术会议。ICML 2022 共收到5630 投稿,接收1117 篇 short oral,118篇 long oral,录用率为21.94%。
【ICML2022】时序自监督视频transformer
专知会员服务
18+阅读 · 7月28日
【ICLR2022】分布外泛化的不确定性建模
专知会员服务
23+阅读 · 2月11日
专知会员服务
26+阅读 · 2021年8月17日
专知会员服务
22+阅读 · 2021年8月2日
专知会员服务
14+阅读 · 2021年7月11日
专知会员服务
15+阅读 · 2021年6月4日
专知会员服务
24+阅读 · 2021年5月29日
【ICML2022】在线决策Transformer
专知
0+阅读 · 7月27日
【迁移学习】迁移学习在图像分类中的简单应用策略
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Multi-Domain Multi-Task Rehearsal for Lifelong Learning
Arxiv
10+阅读 · 2020年12月14日
Arxiv
11+阅读 · 2019年9月11日
Arxiv
11+阅读 · 2018年4月25日
VIP会员
相关VIP内容
【ICML2022】时序自监督视频transformer
专知会员服务
18+阅读 · 7月28日
【ICLR2022】分布外泛化的不确定性建模
专知会员服务
23+阅读 · 2月11日
专知会员服务
26+阅读 · 2021年8月17日
专知会员服务
22+阅读 · 2021年8月2日
专知会员服务
14+阅读 · 2021年7月11日
专知会员服务
15+阅读 · 2021年6月4日
专知会员服务
24+阅读 · 2021年5月29日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
微信扫码咨询专知VIP会员