大型语言模型(LLM)在各类任务中表现出色,但对计算资源的需求不断增加,特别是在下游任务中广泛使用全量微调时,带来了显著的挑战。为了解决这一问题,已经提出了参数高效微调(PEFT)方法,但它们往往表现不如全量微调,并且在内存效率方面存在困难。在本研究中,我们提出了一种新方法——梯度权重归一化低秩投影(GradNormLoRP),它在保持与全量微调相当的性能的同时,提升了参数和内存效率。GradNormLoRP 通过归一化权重矩阵来改善梯度的条件,从而促进优化过程中更好的收敛。此外,它对权重和梯度矩阵应用低秩近似,大幅减少了训练过程中的内存使用。大量实验表明,我们的 8 位 GradNormLoRP 能够将优化器的内存使用减少最多 89.5%,并使得大规模 LLM(如 LLaMA 7B)能够在消费者级 GPU(如 NVIDIA RTX 4090)上进行预训练,而无需额外的推理成本。更重要的是,GradNormLoRP 在微调任务中优于现有的低秩方法。例如,在对 RoBERTa 模型进行所有 GLUE 任务的微调时,使用秩为 8 的 GradNormLoRP 平均得分为 80.65,超越了 LoRA 的 79.23 分。这些结果突显了 GradNormLoRP 作为一种高效 LLM 预训练和微调的有前途替代方案。

成为VIP会员查看完整内容
8

相关内容

【CVPR2024】扩散模型的结构指导对抗训练
专知会员服务
24+阅读 · 2024年2月28日
【ICML2023】知识蒸馏对模型可解释性的影响
专知会员服务
37+阅读 · 2023年5月27日
专知会员服务
23+阅读 · 2021年9月27日
专知会员服务
12+阅读 · 2021年7月16日
专知会员服务
24+阅读 · 2021年6月8日
专知会员服务
38+阅读 · 2021年6月3日
【AAAI2023】用于图对比学习的谱特征增强
专知
18+阅读 · 2022年12月11日
【CVPR2021】跨模态检索的概率嵌入
专知
17+阅读 · 2021年3月2日
【KDD2020】图神经网络生成式预训练
专知
22+阅读 · 2020年7月3日
论文浅尝 | 基于局内去噪和迁移学习的关系抽取
开放知识图谱
16+阅读 · 2018年12月2日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Arxiv
160+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
417+阅读 · 2023年3月31日
Arxiv
68+阅读 · 2023年3月26日
Arxiv
21+阅读 · 2023年3月17日
VIP会员
相关VIP内容
【CVPR2024】扩散模型的结构指导对抗训练
专知会员服务
24+阅读 · 2024年2月28日
【ICML2023】知识蒸馏对模型可解释性的影响
专知会员服务
37+阅读 · 2023年5月27日
专知会员服务
23+阅读 · 2021年9月27日
专知会员服务
12+阅读 · 2021年7月16日
专知会员服务
24+阅读 · 2021年6月8日
专知会员服务
38+阅读 · 2021年6月3日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员