【ICML2024】深度过参数低秩学习与适应中的可压缩动力学 - 专知VIP

会员服务 ·

11

ICML 2024 · 机器学习 · 大模型 ·

2024 年 6 月 8 日

【ICML2024】深度过参数低秩学习与适应中的可压缩动力学

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

尽管机器学习模型中的过参数化在优化和泛化方面带来了极大的好处，但随着模型规模的增长，也导致了计算需求的增加。在这项工作中，我们展示了通过利用数据和模型参数内在的低维结构和可压缩动力学，我们可以在不增加计算负担的情况下享受过参数化的好处。在实践中，我们证明了这种方法在深度低秩矩阵补全以及微调语言模型方面的有效性。我们的方法基于深度过参数化低秩矩阵恢复的理论发现，我们证明了每个权重矩阵的学习动力学被限制在一个不变的低维子空间中。因此，我们可以构建和训练紧凑的高度压缩的分解，同时具有与其过参数化对应物相同的优势。在深度矩阵补全的背景下，我们的技术在保持过参数化优势的同时，大大提高了训练效率。对于语言模型的微调，我们提出了一种称为“Deep LoRA”的方法，这种方法改进了现有的低秩适应（LoRA）技术，减少了过拟合并简化了超参数设置，同时保持了相当的效率。我们在自然语言任务中验证了Deep LoRA的有效性，特别是在有限数据下进行微调时。

成为VIP会员查看完整内容

19

相关内容

ICML 2024

【KDD2024】异质性知情的元参数学习用于时空时间序列预测

【KDD2024】异质性知情的元参数学习用于时空时间序列预测

专知会员服务

22+阅读 · 2024年5月22日

【KDD2024】用于时空时间序列预测的异质性信息元参数学习

【KDD2024】用于时空时间序列预测的异质性信息元参数学习

专知会员服务

19+阅读 · 2024年5月20日

【AAAI2023】深度神经网络的可解释性验证

【AAAI2023】深度神经网络的可解释性验证

专知会员服务

49+阅读 · 2022年12月6日

【NeurIPS2022】解析动力学系统中物理信息图神经网络的性能

【NeurIPS2022】解析动力学系统中物理信息图神经网络的性能

专知会员服务

19+阅读 · 2022年11月12日

【NeurIPS2022】分布式自适应元强化学习

【NeurIPS2022】分布式自适应元强化学习

专知会员服务

24+阅读 · 2022年10月8日

【MIT博士论文】通过奇异值分解、端到端基于模型的方法和奖励塑造的有效强化学习

【MIT博士论文】通过奇异值分解、端到端基于模型的方法和奖励塑造的有效强化学习

专知会员服务

48+阅读 · 2022年9月22日

【ICML2021】从相关数据中学习的解纠缠表示

专知会员服务

19+阅读 · 2021年9月19日

【ICML2021】基于离线模型有效优化的保守目标模型

专知会员服务

12+阅读 · 2021年7月16日

【NAACL2021】信息解缠正则化持续学习的文本分类

【NAACL2021】信息解缠正则化持续学习的文本分类

专知会员服务

22+阅读 · 2021年4月11日

【ICLR2021】对未标记数据进行深度网络自训练的理论分析

【ICLR2021】对未标记数据进行深度网络自训练的理论分析

专知会员服务

26+阅读 · 2021年2月22日

基于模型的强化学习综述

基于模型的强化学习综述

专知

42+阅读 · 2022年7月13日

【CVPR2021】跨模态检索的概率嵌入

【CVPR2021】跨模态检索的概率嵌入

专知

17+阅读 · 2021年3月2日

[IEEE TPAMI 2021]卷积原型网络在开放集识别中的应用

[IEEE TPAMI 2021]卷积原型网络在开放集识别中的应用

专知

11+阅读 · 2021年2月19日

【AAAI2021】自监督对应学习的对比转换

【AAAI2021】自监督对应学习的对比转换

专知

12+阅读 · 2020年12月11日

【MIT】硬负样本的对比学习

【MIT】硬负样本的对比学习

专知

13+阅读 · 2020年10月15日

【CVPR2020-北京大学】自适应间隔损失的提升小样本学习

【CVPR2020-北京大学】自适应间隔损失的提升小样本学习

专知

12+阅读 · 2020年6月9日

【SIGIR2020-清华】知识图谱上的增强推荐推理

【SIGIR2020-清华】知识图谱上的增强推荐推理

专知

15+阅读 · 2020年5月30日

【CVPR2020-旷视】DPGN：分布传播图网络的小样本学习

【CVPR2020-旷视】DPGN：分布传播图网络的小样本学习

专知

13+阅读 · 2020年4月1日

【Amazon】使用预训练Transformer模型进行数据增强

【Amazon】使用预训练Transformer模型进行数据增强

专知

12+阅读 · 2020年3月6日

【UC伯克利】可解释性机器学习：定义、方法和应用

【UC伯克利】可解释性机器学习：定义、方法和应用

专知

70+阅读 · 2019年1月19日

反问题的数学建模、计算及应用

国家自然科学基金

2+阅读 · 2015年12月31日

T-S模糊神经网络的容错同步性分析

国家自然科学基金

0+阅读 · 2015年12月31日

随机机械系统的建模和控制问题

国家自然科学基金

1+阅读 · 2015年12月31日

基于约束等距条件的噪音低秩矩阵恢复算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

数值研究脉冲射频大气压N2/O2混合气体放电中等离子体的基本特性

国家自然科学基金

0+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

高维数据下的模型平均方法

国家自然科学基金

6+阅读 · 2014年12月31日

异质总体中的随机比较和剩余寿命研究

国家自然科学基金

0+阅读 · 2014年12月31日

相依重尾随机变量和的渐近性及其在更新风险模型中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

高维稀疏统计模型中的变量选择与检验

国家自然科学基金

1+阅读 · 2014年12月31日

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

171+阅读 · 2023年4月20日

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

40+阅读 · 2023年4月19日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

214+阅读 · 2023年4月7日

A Survey on Graph Diffusion Models: Generative AI in Science for Molecule, Protein and Material

Arxiv

81+阅读 · 2023年4月4日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

473+阅读 · 2023年3月31日

Unleashing the Power of Edge-Cloud Generative AI in Mobile Networks: A Survey of AIGC Services

Arxiv

146+阅读 · 2023年3月29日

Nature Language Reasoning, A Survey

Arxiv

78+阅读 · 2023年3月26日

Knowledge Graphs: Opportunities and Challenges

Arxiv

172+阅读 · 2023年3月24日

Sparks of Artificial General Intelligence: Early experiments with GPT-4

Arxiv

51+阅读 · 2023年3月22日

Data-centric Artificial Intelligence: A Survey

Arxiv

24+阅读 · 2023年3月17日

VIP会员

相关主题

相关VIP内容

【KDD2024】异质性知情的元参数学习用于时空时间序列预测

【KDD2024】异质性知情的元参数学习用于时空时间序列预测

专知会员服务

22+阅读 · 2024年5月22日

【KDD2024】用于时空时间序列预测的异质性信息元参数学习

【KDD2024】用于时空时间序列预测的异质性信息元参数学习

专知会员服务

19+阅读 · 2024年5月20日

【AAAI2023】深度神经网络的可解释性验证

【AAAI2023】深度神经网络的可解释性验证

专知会员服务

49+阅读 · 2022年12月6日

【NeurIPS2022】解析动力学系统中物理信息图神经网络的性能

【NeurIPS2022】解析动力学系统中物理信息图神经网络的性能

专知会员服务

19+阅读 · 2022年11月12日

【NeurIPS2022】分布式自适应元强化学习

【NeurIPS2022】分布式自适应元强化学习

专知会员服务

24+阅读 · 2022年10月8日

【MIT博士论文】通过奇异值分解、端到端基于模型的方法和奖励塑造的有效强化学习

【MIT博士论文】通过奇异值分解、端到端基于模型的方法和奖励塑造的有效强化学习

专知会员服务

48+阅读 · 2022年9月22日

【ICML2021】从相关数据中学习的解纠缠表示

专知会员服务

19+阅读 · 2021年9月19日

【ICML2021】基于离线模型有效优化的保守目标模型

专知会员服务

12+阅读 · 2021年7月16日

【NAACL2021】信息解缠正则化持续学习的文本分类

【NAACL2021】信息解缠正则化持续学习的文本分类

专知会员服务

22+阅读 · 2021年4月11日

【ICLR2021】对未标记数据进行深度网络自训练的理论分析

【ICLR2021】对未标记数据进行深度网络自训练的理论分析

专知会员服务

26+阅读 · 2021年2月22日

热门VIP内容

开通专知VIP会员享更多权益服务

新质生成式AI赋能产业变革的实践与路径

用于多模态大模型的离散标记化：全面综述

Nature综述：金融网络中的物理学

【CMU博士论文】通信高效且差分隐私的优化方法

相关资讯

基于模型的强化学习综述

基于模型的强化学习综述

专知

42+阅读 · 2022年7月13日

【CVPR2021】跨模态检索的概率嵌入

【CVPR2021】跨模态检索的概率嵌入

专知

17+阅读 · 2021年3月2日

[IEEE TPAMI 2021]卷积原型网络在开放集识别中的应用

[IEEE TPAMI 2021]卷积原型网络在开放集识别中的应用

专知

11+阅读 · 2021年2月19日

【AAAI2021】自监督对应学习的对比转换

【AAAI2021】自监督对应学习的对比转换

专知

12+阅读 · 2020年12月11日

【MIT】硬负样本的对比学习

【MIT】硬负样本的对比学习

专知

13+阅读 · 2020年10月15日

【CVPR2020-北京大学】自适应间隔损失的提升小样本学习

【CVPR2020-北京大学】自适应间隔损失的提升小样本学习

专知

12+阅读 · 2020年6月9日

【SIGIR2020-清华】知识图谱上的增强推荐推理

【SIGIR2020-清华】知识图谱上的增强推荐推理

专知

15+阅读 · 2020年5月30日

【CVPR2020-旷视】DPGN：分布传播图网络的小样本学习

【CVPR2020-旷视】DPGN：分布传播图网络的小样本学习

专知

13+阅读 · 2020年4月1日

【Amazon】使用预训练Transformer模型进行数据增强

【Amazon】使用预训练Transformer模型进行数据增强

专知

12+阅读 · 2020年3月6日

【UC伯克利】可解释性机器学习：定义、方法和应用

【UC伯克利】可解释性机器学习：定义、方法和应用

专知

70+阅读 · 2019年1月19日

相关基金

反问题的数学建模、计算及应用

国家自然科学基金

2+阅读 · 2015年12月31日

T-S模糊神经网络的容错同步性分析

国家自然科学基金

0+阅读 · 2015年12月31日

随机机械系统的建模和控制问题

国家自然科学基金

1+阅读 · 2015年12月31日

基于约束等距条件的噪音低秩矩阵恢复算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

数值研究脉冲射频大气压N2/O2混合气体放电中等离子体的基本特性

国家自然科学基金

0+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

高维数据下的模型平均方法

国家自然科学基金

6+阅读 · 2014年12月31日

异质总体中的随机比较和剩余寿命研究

国家自然科学基金

0+阅读 · 2014年12月31日

相依重尾随机变量和的渐近性及其在更新风险模型中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

高维稀疏统计模型中的变量选择与检验

国家自然科学基金

1+阅读 · 2014年12月31日

相关论文

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

171+阅读 · 2023年4月20日

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

40+阅读 · 2023年4月19日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

214+阅读 · 2023年4月7日

A Survey on Graph Diffusion Models: Generative AI in Science for Molecule, Protein and Material

Arxiv

81+阅读 · 2023年4月4日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

473+阅读 · 2023年3月31日

Unleashing the Power of Edge-Cloud Generative AI in Mobile Networks: A Survey of AIGC Services

Arxiv

146+阅读 · 2023年3月29日

Nature Language Reasoning, A Survey

Arxiv

78+阅读 · 2023年3月26日

Knowledge Graphs: Opportunities and Challenges

Arxiv

172+阅读 · 2023年3月24日

Sparks of Artificial General Intelligence: Early experiments with GPT-4

Arxiv

51+阅读 · 2023年3月22日

Data-centric Artificial Intelligence: A Survey

Arxiv

24+阅读 · 2023年3月17日

微信扫码咨询专知VIP会员