【ACL2024】DoRA：通过动态秩分布增强参数高效微调 - 专知VIP

会员服务 ·

4

ACL 2024 · DoRA · LORA · 参数高效微调 · 动态低秩适应 ·

2024 年 5 月 28 日

【ACL2024】DoRA：通过动态秩分布增强参数高效微调

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

微调大规模预训练模型本质上是一项资源密集型任务。虽然它可以增强模型的能力，但也会产生大量的计算成本，给下游任务的实际应用带来挑战。现有的参数高效微调（PEFT）方法，如低秩适应（LoRA），依赖于一种旁路框架，这种框架忽略了不同权重矩阵对参数预算的差异性要求，这可能导致次优的微调结果。为了解决这个问题，我们引入了动态低秩适应（DoRA）方法。

DoRA将高秩的LoRA层分解为结构化的单秩组件，从而允许在训练过程中根据特定任务的重要性动态修剪参数预算，充分利用有限的参数预算。实验结果表明，与LoRA和全模型微调相比，DoRA可以实现竞争性的性能，并在相同的存储参数预算下优于多种强基线方法。我们的代码可在以下网址获取： https://github.com/Yulongmao1/DoRA/ https://www.zhuanzhi.ai/paper/41de7e12e74f70868fe0259fe6c47cf8

成为VIP会员查看完整内容

7

相关内容

ACL 2024

【CVPR2024】利用大型语言模型进行无需训练的视频异常检测

【CVPR2024】利用大型语言模型进行无需训练的视频异常检测

专知会员服务

21+阅读 · 2024年4月2日

【TPAMI2022】TransCL：基于Transformer的压缩学习，更灵活更强大

【TPAMI2022】TransCL：基于Transformer的压缩学习，更灵活更强大

专知会员服务

24+阅读 · 2022年8月2日

【ICML2021】深度隐式图匹配

专知会员服务

25+阅读 · 2021年9月22日

【WWW2021】高效的非抽样知识图谱嵌入

专知会员服务

38+阅读 · 2021年4月25日

【IJCV2020】通过迭代亲密学习实现弱监督语义分割

专知会员服务

42+阅读 · 2020年2月20日

【ICLR2021】通过多种自监督方式提升GAT中注意力

【ICLR2021】通过多种自监督方式提升GAT中注意力

专知

18+阅读 · 2021年2月27日

【商汤科技】可变形Transformers端到端对象检测，Deformable DETR

【商汤科技】可变形Transformers端到端对象检测，Deformable DETR

专知

18+阅读 · 2020年10月11日

【NeurIPS2020-MIT】子图神经网络，Subgraph Neural Networks

【NeurIPS2020-MIT】子图神经网络，Subgraph Neural Networks

专知

38+阅读 · 2020年9月30日

【KDD2020】更深的图神经网络，Towards Deeper Graph Neural Networks

【KDD2020】更深的图神经网络，Towards Deeper Graph Neural Networks

专知

45+阅读 · 2020年7月22日

【MIT】最优传输图神经网络，Optimal Transport Graph Neural Networks

【MIT】最优传输图神经网络，Optimal Transport Graph Neural Networks

专知

18+阅读 · 2020年6月22日

直接优化半周长线长的VLSI两阶段迭代布局算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

带有输入饱和的非线性控制系统的量化反馈控制

国家自然科学基金

0+阅读 · 2015年12月31日

纵向数据的动态半参数建模及其统计推断

国家自然科学基金

0+阅读 · 2014年12月31日

一般误差分布下若干半参数模型的复合分位数方法

国家自然科学基金

0+阅读 · 2014年12月31日

高维复杂结构数据降维

国家自然科学基金

10+阅读 · 2014年12月31日

Online Bayesian changepoint detection for network Poisson processes with community structure

Arxiv

0+阅读 · 2024年7月4日

missForestPredict -- Missing data imputation for prediction settings

Arxiv

0+阅读 · 2024年7月2日

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

174+阅读 · 2023年4月20日

A Comprehensive Survey on Deep Graph Representation Learning

Arxiv

107+阅读 · 2023年4月11日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

497+阅读 · 2023年3月31日

VIP会员

相关主题

参数高效微调

动态低秩适应

相关VIP内容

【CVPR2024】利用大型语言模型进行无需训练的视频异常检测

【CVPR2024】利用大型语言模型进行无需训练的视频异常检测

专知会员服务

21+阅读 · 2024年4月2日

【TPAMI2022】TransCL：基于Transformer的压缩学习，更灵活更强大

【TPAMI2022】TransCL：基于Transformer的压缩学习，更灵活更强大

专知会员服务

24+阅读 · 2022年8月2日

【ICML2021】深度隐式图匹配

专知会员服务

25+阅读 · 2021年9月22日

【WWW2021】高效的非抽样知识图谱嵌入

专知会员服务

38+阅读 · 2021年4月25日

【IJCV2020】通过迭代亲密学习实现弱监督语义分割

专知会员服务

42+阅读 · 2020年2月20日

热门VIP内容

开通专知VIP会员享更多权益服务

生成式人工智能导论：可靠性、负责任开发及实际应用（第二版）

《2025财年美陆军转型倡议（ATI）部队结构与组织提案》

【CMU博士论文】分布偏移下的可信机器学习

智能体 EDA 的曙光：自主数字芯片设计综述

相关资讯

【ICLR2021】通过多种自监督方式提升GAT中注意力

【ICLR2021】通过多种自监督方式提升GAT中注意力

专知

18+阅读 · 2021年2月27日

【商汤科技】可变形Transformers端到端对象检测，Deformable DETR

【商汤科技】可变形Transformers端到端对象检测，Deformable DETR

专知

18+阅读 · 2020年10月11日

【NeurIPS2020-MIT】子图神经网络，Subgraph Neural Networks

【NeurIPS2020-MIT】子图神经网络，Subgraph Neural Networks

专知

38+阅读 · 2020年9月30日

【KDD2020】更深的图神经网络，Towards Deeper Graph Neural Networks

【KDD2020】更深的图神经网络，Towards Deeper Graph Neural Networks

专知

45+阅读 · 2020年7月22日

【MIT】最优传输图神经网络，Optimal Transport Graph Neural Networks

【MIT】最优传输图神经网络，Optimal Transport Graph Neural Networks

专知

18+阅读 · 2020年6月22日

相关基金

直接优化半周长线长的VLSI两阶段迭代布局算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

带有输入饱和的非线性控制系统的量化反馈控制

国家自然科学基金

0+阅读 · 2015年12月31日

纵向数据的动态半参数建模及其统计推断

国家自然科学基金

0+阅读 · 2014年12月31日

一般误差分布下若干半参数模型的复合分位数方法

国家自然科学基金

0+阅读 · 2014年12月31日

高维复杂结构数据降维

国家自然科学基金

10+阅读 · 2014年12月31日

相关论文

Online Bayesian changepoint detection for network Poisson processes with community structure

Arxiv

0+阅读 · 2024年7月4日

missForestPredict -- Missing data imputation for prediction settings

Arxiv

0+阅读 · 2024年7月2日

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

174+阅读 · 2023年4月20日

A Comprehensive Survey on Deep Graph Representation Learning

Arxiv

107+阅读 · 2023年4月11日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

497+阅读 · 2023年3月31日

微信扫码咨询专知VIP会员