大型语言模型(llm)已经证明了对各种自然语言处理(NLP)任务的熟练程度,但通常需要额外的训练,例如持续的预训练和监督微调。然而,与此相关的成本仍然很高,主要是由于它们的参数数量很大。本文建议在预训练llm中利用稀疏性来加快这一训练过程。通过观察前向迭代中激活神经元的稀疏性,我们通过排除非活动神经元来确定计算加速的潜力。我们通过扩展现有神经元重要性评估指标和引入阶梯遗漏率调度器来解决相关挑战。在Llama-2上的实验表明,稀疏加速训练(SAT)取得了与标准训练相当或更好的性能,同时显著加快了过程。具体来说,SAT在持续预训练中实现了45%的吞吐量提高,在实际的监督微调中节省了38%的训练时间。它为额外的LLM培训提供了一个简单、硬件无关且易于部署的框架。我们的代码可在https://github.com/OpenDFM/SAT上获得。

成为VIP会员查看完整内容
25

相关内容

【CVPR2024】扩散模型的结构指导对抗训练
专知会员服务
22+阅读 · 2月28日
【EMNLP2023】基于文本属性异构图的语言模型预训练
专知会员服务
21+阅读 · 2023年10月21日
【NeurIPS2023】将持续学习重新定义为序列建模
专知会员服务
33+阅读 · 2023年10月19日
【CVPR2023】基础模型驱动弱增量学习的语义分割
专知会员服务
17+阅读 · 2023年3月2日
专知会员服务
12+阅读 · 2021年10月11日
专知会员服务
38+阅读 · 2021年5月16日
【SIGIR2021】基于嵌入的增量式时序知识图谱补全框架
专知会员服务
61+阅读 · 2021年4月21日
【CVPR2021】多实例主动学习目标检测
专知会员服务
41+阅读 · 2021年4月18日
专知会员服务
35+阅读 · 2020年11月29日
【CVPR2021】跨模态检索的概率嵌入
专知
17+阅读 · 2021年3月2日
【KDD2020】图神经网络生成式预训练
专知
22+阅读 · 2020年7月3日
论文浅尝 | 远程监督关系抽取的生成式对抗训练
开放知识图谱
17+阅读 · 2018年7月12日
国家自然科学基金
41+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
25+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
157+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
398+阅读 · 2023年3月31日
Arxiv
66+阅读 · 2023年3月26日
Arxiv
68+阅读 · 2022年9月7日
VIP会员
相关VIP内容
【CVPR2024】扩散模型的结构指导对抗训练
专知会员服务
22+阅读 · 2月28日
【EMNLP2023】基于文本属性异构图的语言模型预训练
专知会员服务
21+阅读 · 2023年10月21日
【NeurIPS2023】将持续学习重新定义为序列建模
专知会员服务
33+阅读 · 2023年10月19日
【CVPR2023】基础模型驱动弱增量学习的语义分割
专知会员服务
17+阅读 · 2023年3月2日
专知会员服务
12+阅读 · 2021年10月11日
专知会员服务
38+阅读 · 2021年5月16日
【SIGIR2021】基于嵌入的增量式时序知识图谱补全框架
专知会员服务
61+阅读 · 2021年4月21日
【CVPR2021】多实例主动学习目标检测
专知会员服务
41+阅读 · 2021年4月18日
专知会员服务
35+阅读 · 2020年11月29日
相关基金
国家自然科学基金
41+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
25+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员