【ACL2024】DoRA：通过动态秩分布增强参数高效微调 - 专知VIP

会员服务 ·

13

ACL 2024 · DoRA · LORA · 参数高效微调 · 动态低秩适应 ·

2024 年 5 月 28 日

【ACL2024】DoRA：通过动态秩分布增强参数高效微调

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

微调大规模预训练模型本质上是一项资源密集型任务。虽然它可以增强模型的能力，但也会产生大量的计算成本，给下游任务的实际应用带来挑战。现有的参数高效微调（PEFT）方法，如低秩适应（LoRA），依赖于一种旁路框架，这种框架忽略了不同权重矩阵对参数预算的差异性要求，这可能导致次优的微调结果。为了解决这个问题，我们引入了动态低秩适应（DoRA）方法。

DoRA将高秩的LoRA层分解为结构化的单秩组件，从而允许在训练过程中根据特定任务的重要性动态修剪参数预算，充分利用有限的参数预算。实验结果表明，与LoRA和全模型微调相比，DoRA可以实现竞争性的性能，并在相同的存储参数预算下优于多种强基线方法。我们的代码可在以下网址获取： https://github.com/Yulongmao1/DoRA/ https://www.zhuanzhi.ai/paper/41de7e12e74f70868fe0259fe6c47cf8

成为VIP会员查看完整内容

21

相关内容

ACL 2024

【CVPR2024】利用大型语言模型进行无需训练的视频异常检测

【CVPR2024】利用大型语言模型进行无需训练的视频异常检测

专知会员服务

21+阅读 · 2024年4月2日

【CVPR2024】用于文本到图像生成的判别性探测和调整

【CVPR2024】用于文本到图像生成的判别性探测和调整

专知会员服务

15+阅读 · 2024年3月11日

【WWW2024】知识数据对齐的弱监督异常检测

【WWW2024】知识数据对齐的弱监督异常检测

专知会员服务

23+阅读 · 2024年2月7日

【WWW2024】LARA:一种轻量级、抗过拟合的无监督异常检测再训练方法

【WWW2024】LARA:一种轻量级、抗过拟合的无监督异常检测再训练方法

专知会员服务

26+阅读 · 2024年1月31日

【TPAMI2022】TransCL：基于Transformer的压缩学习，更灵活更强大

【TPAMI2022】TransCL：基于Transformer的压缩学习，更灵活更强大

专知会员服务

24+阅读 · 2022年8月2日

【ICML2022】DepthShrinker:一种新的压缩范式，用于提高紧凑神经网络的实际硬件效率

【ICML2022】DepthShrinker:一种新的压缩范式，用于提高紧凑神经网络的实际硬件效率

专知会员服务

11+阅读 · 2022年6月5日

【ICML2021】深度隐式图匹配

专知会员服务

25+阅读 · 2021年9月22日

【WWW2021】高效的非抽样知识图谱嵌入

专知会员服务

38+阅读 · 2021年4月25日

【WWW2021】用于用户冷启动推荐的任务自适应神经过程

专知会员服务

20+阅读 · 2021年3月12日

【IJCV2020】通过迭代亲密学习实现弱监督语义分割

专知会员服务

42+阅读 · 2020年2月20日

【AAAI2023】用于图对比学习的谱特征增强

【AAAI2023】用于图对比学习的谱特征增强

专知

20+阅读 · 2022年12月11日

【ICLR2021】通过多种自监督方式提升GAT中注意力

【ICLR2021】通过多种自监督方式提升GAT中注意力

专知

18+阅读 · 2021年2月27日

【商汤科技】可变形Transformers端到端对象检测，Deformable DETR

【商汤科技】可变形Transformers端到端对象检测，Deformable DETR

专知

18+阅读 · 2020年10月11日

【NeurIPS2020-MIT】子图神经网络，Subgraph Neural Networks

【NeurIPS2020-MIT】子图神经网络，Subgraph Neural Networks

专知

38+阅读 · 2020年9月30日

【KDD2020-Tutorial】因果推理与稳定学习，Causal Inference and Stable Learning

【KDD2020-Tutorial】因果推理与稳定学习，Causal Inference and Stable Learning

专知

11+阅读 · 2020年8月28日

【KDD2020】更深的图神经网络，Towards Deeper Graph Neural Networks

【KDD2020】更深的图神经网络，Towards Deeper Graph Neural Networks

专知

45+阅读 · 2020年7月22日

【MIT】最优传输图神经网络，Optimal Transport Graph Neural Networks

【MIT】最优传输图神经网络，Optimal Transport Graph Neural Networks

专知

18+阅读 · 2020年6月22日

【CVPR2020-清华大学】渐进对抗网络的细粒度域适应，Progressive Adversarial Networks

【CVPR2020-清华大学】渐进对抗网络的细粒度域适应，Progressive Adversarial Networks

专知

31+阅读 · 2020年4月4日

【Google-CMU】元伪标签的元学习，Meta Pseudo Labels

【Google-CMU】元伪标签的元学习，Meta Pseudo Labels

专知

48+阅读 · 2020年3月30日

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

专知

11+阅读 · 2020年3月17日

直接优化半周长线长的VLSI两阶段迭代布局算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

Schr？dinger-Poisson方程守恒DDG方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

带有输入饱和的非线性控制系统的量化反馈控制

国家自然科学基金

0+阅读 · 2015年12月31日

非局部总变差正则化图像恢复模型的快速子空间校正算法

国家自然科学基金

0+阅读 · 2014年12月31日

纵向数据的动态半参数建模及其统计推断

国家自然科学基金

0+阅读 · 2014年12月31日

一般误差分布下若干半参数模型的复合分位数方法

国家自然科学基金

0+阅读 · 2014年12月31日

解决地图要素空间冲突的智能化协同模型和算法

国家自然科学基金

6+阅读 · 2014年12月31日

变换结构方程模型的非参数贝叶斯分析

国家自然科学基金

3+阅读 · 2014年12月31日

复杂数据下含指标项半参数模型结构的统计推断及应用

国家自然科学基金

0+阅读 · 2014年12月31日

高维复杂结构数据降维

国家自然科学基金

10+阅读 · 2014年12月31日

Stable numerics for finite-strain elasticity

Arxiv

0+阅读 · 2024年7月8日

DeLaM: A Dependent Layered Modal Type Theory for Meta-programming

Arxiv

0+阅读 · 2024年7月8日

Online Bayesian changepoint detection for network Poisson processes with community structure

Arxiv

0+阅读 · 2024年7月4日

Green Multigrid Network

Arxiv

0+阅读 · 2024年7月4日

missForestPredict -- Missing data imputation for prediction settings

Arxiv

0+阅读 · 2024年7月2日

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

171+阅读 · 2023年4月20日

A Comprehensive Survey on Deep Graph Representation Learning

Arxiv

103+阅读 · 2023年4月11日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

216+阅读 · 2023年4月7日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

476+阅读 · 2023年3月31日

Exploring Visual Relationship for Image Captioning

Exploring Visual Relationship for Image Captioning

Arxiv

15+阅读 · 2018年9月19日

VIP会员

相关主题

参数高效微调

动态低秩适应

相关VIP内容

【CVPR2024】利用大型语言模型进行无需训练的视频异常检测

【CVPR2024】利用大型语言模型进行无需训练的视频异常检测

专知会员服务

21+阅读 · 2024年4月2日

【CVPR2024】用于文本到图像生成的判别性探测和调整

【CVPR2024】用于文本到图像生成的判别性探测和调整

专知会员服务

15+阅读 · 2024年3月11日

【WWW2024】知识数据对齐的弱监督异常检测

【WWW2024】知识数据对齐的弱监督异常检测

专知会员服务

23+阅读 · 2024年2月7日

【WWW2024】LARA:一种轻量级、抗过拟合的无监督异常检测再训练方法

【WWW2024】LARA:一种轻量级、抗过拟合的无监督异常检测再训练方法

专知会员服务

26+阅读 · 2024年1月31日

【TPAMI2022】TransCL：基于Transformer的压缩学习，更灵活更强大

【TPAMI2022】TransCL：基于Transformer的压缩学习，更灵活更强大

专知会员服务

24+阅读 · 2022年8月2日

【ICML2022】DepthShrinker:一种新的压缩范式，用于提高紧凑神经网络的实际硬件效率

【ICML2022】DepthShrinker:一种新的压缩范式，用于提高紧凑神经网络的实际硬件效率

专知会员服务

11+阅读 · 2022年6月5日

【ICML2021】深度隐式图匹配

专知会员服务

25+阅读 · 2021年9月22日

【WWW2021】高效的非抽样知识图谱嵌入

专知会员服务

38+阅读 · 2021年4月25日

【WWW2021】用于用户冷启动推荐的任务自适应神经过程

专知会员服务

20+阅读 · 2021年3月12日

【IJCV2020】通过迭代亲密学习实现弱监督语义分割

专知会员服务

42+阅读 · 2020年2月20日

热门VIP内容

开通专知VIP会员享更多权益服务

《战区安全决策课程体系》最新244页

《"无人机航母"原型平台》

任务规划与地形分析：现代复杂环境作战导航体系

《攻击场景描述形式化模型研究》

相关资讯

【AAAI2023】用于图对比学习的谱特征增强

【AAAI2023】用于图对比学习的谱特征增强

专知

20+阅读 · 2022年12月11日

【ICLR2021】通过多种自监督方式提升GAT中注意力

【ICLR2021】通过多种自监督方式提升GAT中注意力

专知

18+阅读 · 2021年2月27日

【商汤科技】可变形Transformers端到端对象检测，Deformable DETR

【商汤科技】可变形Transformers端到端对象检测，Deformable DETR

专知

18+阅读 · 2020年10月11日

【NeurIPS2020-MIT】子图神经网络，Subgraph Neural Networks

【NeurIPS2020-MIT】子图神经网络，Subgraph Neural Networks

专知

38+阅读 · 2020年9月30日

【KDD2020-Tutorial】因果推理与稳定学习，Causal Inference and Stable Learning

【KDD2020-Tutorial】因果推理与稳定学习，Causal Inference and Stable Learning

专知

11+阅读 · 2020年8月28日

【KDD2020】更深的图神经网络，Towards Deeper Graph Neural Networks

【KDD2020】更深的图神经网络，Towards Deeper Graph Neural Networks

专知

45+阅读 · 2020年7月22日

【MIT】最优传输图神经网络，Optimal Transport Graph Neural Networks

【MIT】最优传输图神经网络，Optimal Transport Graph Neural Networks

专知

18+阅读 · 2020年6月22日

【CVPR2020-清华大学】渐进对抗网络的细粒度域适应，Progressive Adversarial Networks

【CVPR2020-清华大学】渐进对抗网络的细粒度域适应，Progressive Adversarial Networks

专知

31+阅读 · 2020年4月4日

【Google-CMU】元伪标签的元学习，Meta Pseudo Labels

【Google-CMU】元伪标签的元学习，Meta Pseudo Labels

专知

48+阅读 · 2020年3月30日

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

专知

11+阅读 · 2020年3月17日

相关基金

直接优化半周长线长的VLSI两阶段迭代布局算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

Schr？dinger-Poisson方程守恒DDG方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

带有输入饱和的非线性控制系统的量化反馈控制

国家自然科学基金

0+阅读 · 2015年12月31日

非局部总变差正则化图像恢复模型的快速子空间校正算法

国家自然科学基金

0+阅读 · 2014年12月31日

纵向数据的动态半参数建模及其统计推断

国家自然科学基金

0+阅读 · 2014年12月31日

一般误差分布下若干半参数模型的复合分位数方法

国家自然科学基金

0+阅读 · 2014年12月31日

解决地图要素空间冲突的智能化协同模型和算法

国家自然科学基金

6+阅读 · 2014年12月31日

变换结构方程模型的非参数贝叶斯分析

国家自然科学基金

3+阅读 · 2014年12月31日

复杂数据下含指标项半参数模型结构的统计推断及应用

国家自然科学基金

0+阅读 · 2014年12月31日

高维复杂结构数据降维

国家自然科学基金

10+阅读 · 2014年12月31日

相关论文

Stable numerics for finite-strain elasticity

Arxiv

0+阅读 · 2024年7月8日

DeLaM: A Dependent Layered Modal Type Theory for Meta-programming

Arxiv

0+阅读 · 2024年7月8日

Online Bayesian changepoint detection for network Poisson processes with community structure

Arxiv

0+阅读 · 2024年7月4日

Green Multigrid Network

Arxiv

0+阅读 · 2024年7月4日

missForestPredict -- Missing data imputation for prediction settings

Arxiv

0+阅读 · 2024年7月2日

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

171+阅读 · 2023年4月20日

A Comprehensive Survey on Deep Graph Representation Learning

Arxiv

103+阅读 · 2023年4月11日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

216+阅读 · 2023年4月7日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

476+阅读 · 2023年3月31日

Exploring Visual Relationship for Image Captioning

Exploring Visual Relationship for Image Captioning

Arxiv

15+阅读 · 2018年9月19日

微信扫码咨询专知VIP会员