视觉变换器(ViT)的不断扩展使得这些大型模型的高效微调用于满足特定需求在各种应用中变得极为困难。这个问题起源于ViT中线性层的反向传播过程中所需的计算密集的矩阵乘法。在本文中,我们通过提出一种新的低秩反向传播通过沃尔什-哈达玛变换(LBP-WHT)方法来解决这个问题。直观地说,LBP-WHT将梯度投影到一个低秩空间并执行反向传播。这种方法大大减少了适应ViT所需的计算,因为在低秩空间中的矩阵乘法远少资源密集。我们对多个数据集中的不同模型(ViT,混合卷积-ViT模型)进行了广泛的实验,以展示我们方法的有效性。例如,在CIFAR100上调整一个EfficientFormer-L1模型时,我们的LBP-WHT比最先进的基线高出10.4%的准确性,同时需要较少的9 MFLOPs计算。作为第一个使用低秩反向传播加速ViT适应的工作,我们的LBP-WHT方法与许多先前的努力相辅相成,可以与它们结合以获得更好的性能。

成为VIP会员查看完整内容
21

相关内容

【NeurIPS2023】朝向自解释的图级异常检测
专知会员服务
27+阅读 · 2023年10月26日
专知会员服务
14+阅读 · 2021年6月26日
专知会员服务
35+阅读 · 2021年6月3日
【CVPR2021】通道注意力的高效移动网络设计
专知会员服务
18+阅读 · 2021年4月27日
专知会员服务
36+阅读 · 2021年4月25日
【SIGIR2021】基于嵌入的增量式时序知识图谱补全框架
专知会员服务
60+阅读 · 2021年4月21日
【ICML2020-浙江大学】对抗性互信息的文本生成
专知会员服务
43+阅读 · 2020年7月4日
【KDD2020】多源深度域自适应的时序传感数据
专知会员服务
59+阅读 · 2020年5月25日
【AAAI2023】用于图对比学习的谱特征增强
专知
18+阅读 · 2022年12月11日
【CVPR2021】跨模态检索的概率嵌入
专知
16+阅读 · 2021年3月2日
【NeurIPS2019】图变换网络:Graph Transformer Network
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
Arxiv
131+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
325+阅读 · 2023年3月31日
Arxiv
53+阅读 · 2023年3月26日
VIP会员
相关VIP内容
【NeurIPS2023】朝向自解释的图级异常检测
专知会员服务
27+阅读 · 2023年10月26日
专知会员服务
14+阅读 · 2021年6月26日
专知会员服务
35+阅读 · 2021年6月3日
【CVPR2021】通道注意力的高效移动网络设计
专知会员服务
18+阅读 · 2021年4月27日
专知会员服务
36+阅读 · 2021年4月25日
【SIGIR2021】基于嵌入的增量式时序知识图谱补全框架
专知会员服务
60+阅读 · 2021年4月21日
【ICML2020-浙江大学】对抗性互信息的文本生成
专知会员服务
43+阅读 · 2020年7月4日
【KDD2020】多源深度域自适应的时序传感数据
专知会员服务
59+阅读 · 2020年5月25日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员