尽管机器学习模型中的过参数化在优化和泛化方面带来了极大的好处,但随着模型规模的增长,也导致了计算需求的增加。在这项工作中,我们展示了通过利用数据和模型参数内在的低维结构和可压缩动力学,我们可以在不增加计算负担的情况下享受过参数化的好处。在实践中,我们证明了这种方法在深度低秩矩阵补全以及微调语言模型方面的有效性。我们的方法基于深度过参数化低秩矩阵恢复的理论发现,我们证明了每个权重矩阵的学习动力学被限制在一个不变的低维子空间中。因此,我们可以构建和训练紧凑的高度压缩的分解,同时具有与其过参数化对应物相同的优势。在深度矩阵补全的背景下,我们的技术在保持过参数化优势的同时,大大提高了训练效率。对于语言模型的微调,我们提出了一种称为“Deep LoRA”的方法,这种方法改进了现有的低秩适应(LoRA)技术,减少了过拟合并简化了超参数设置,同时保持了相当的效率。我们在自然语言任务中验证了Deep LoRA的有效性,特别是在有限数据下进行微调时。

成为VIP会员查看完整内容
15

相关内容

【AAAI2023】深度神经网络的可解释性验证
专知会员服务
46+阅读 · 2022年12月6日
【NeurIPS2022】分布式自适应元强化学习
专知会员服务
20+阅读 · 2022年10月8日
专知会员服务
18+阅读 · 2021年9月19日
专知会员服务
11+阅读 · 2021年7月16日
【NAACL2021】信息解缠正则化持续学习的文本分类
专知会员服务
21+阅读 · 2021年4月11日
【ICLR2021】对未标记数据进行深度网络自训练的理论分析
基于模型的强化学习综述
专知
19+阅读 · 2022年7月13日
【CVPR2021】跨模态检索的概率嵌入
专知
17+阅读 · 2021年3月2日
【AAAI2021】自监督对应学习的对比转换
专知
12+阅读 · 2020年12月11日
【MIT】硬负样本的对比学习
专知
13+阅读 · 2020年10月15日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Arxiv
142+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
348+阅读 · 2023年3月31日
Arxiv
59+阅读 · 2023年3月26日
Arxiv
123+阅读 · 2023年3月24日
Arxiv
18+阅读 · 2023年3月17日
VIP会员
相关VIP内容
【AAAI2023】深度神经网络的可解释性验证
专知会员服务
46+阅读 · 2022年12月6日
【NeurIPS2022】分布式自适应元强化学习
专知会员服务
20+阅读 · 2022年10月8日
专知会员服务
18+阅读 · 2021年9月19日
专知会员服务
11+阅读 · 2021年7月16日
【NAACL2021】信息解缠正则化持续学习的文本分类
专知会员服务
21+阅读 · 2021年4月11日
【ICLR2021】对未标记数据进行深度网络自训练的理论分析
相关资讯
基于模型的强化学习综述
专知
19+阅读 · 2022年7月13日
【CVPR2021】跨模态检索的概率嵌入
专知
17+阅读 · 2021年3月2日
【AAAI2021】自监督对应学习的对比转换
专知
12+阅读 · 2020年12月11日
【MIT】硬负样本的对比学习
专知
13+阅读 · 2020年10月15日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员