随着CLIP等预训练视觉-语言(VL)模型在视觉表示任务中的成功,将预训练模型迁移到下游任务已成为一个关键范式。最近,源自自然语言处理(NLP)的提示调整范式在VL领域取得了显著进展。然而,早期方法主要集中于为文本和视觉输入构建提示模板,忽略了VL模型与下游任务之间类别标签表示的差距。为了应对这一挑战,我们引入了一种名为LAMM的创新标签对齐方法,可以通过端到端训练动态调整下游数据集的类别嵌入。此外,为了实现更合适的标签分布,我们提出了一个分层损失,包括参数空间、特征空间和逻辑空间的对齐。我们在11个下游视觉数据集上进行了实验,并证明了我们的方法显著提高了现有多模态提示学习模型在小样本场景中的性能,与最先进方法相比,在16次射击上平均准确率提高了2.31(%)。此外,我们的方法在持续学习方面与其他提示调整方法相比显示出了优势。重要的是,我们的方法与现有的提示调整方法是协同的,并可以在它们的基础上提高性能。我们的代码和数据集将在https://github.com/gaojingsheng/LAMM上公开。

成为VIP会员查看完整内容
39

相关内容

【WWW2024】RecDCL: 双重对比学习用于推荐
专知会员服务
21+阅读 · 1月30日
【CVPR2023】GeoLayoutLM:视觉信息提取的几何预训练
专知会员服务
30+阅读 · 2023年4月25日
【AAAI2022】基于对比学习的预训练语言模型剪枝压缩
专知会员服务
27+阅读 · 2022年1月24日
专知会员服务
14+阅读 · 2021年9月11日
专知会员服务
62+阅读 · 2021年3月12日
专知会员服务
29+阅读 · 2020年9月18日
【ICML2021】因果匹配领域泛化
专知
12+阅读 · 2021年8月12日
【ICML2020】对比多视角表示学习
专知
19+阅读 · 2020年6月28日
【NeurIPS2019】图变换网络:Graph Transformer Network
国家自然科学基金
11+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2012年12月31日
Arxiv
156+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
398+阅读 · 2023年3月31日
Arxiv
66+阅读 · 2023年3月26日
Arxiv
20+阅读 · 2023年3月17日
Deep Face Recognition: A Survey
Arxiv
18+阅读 · 2019年2月12日
VIP会员
相关VIP内容
【WWW2024】RecDCL: 双重对比学习用于推荐
专知会员服务
21+阅读 · 1月30日
【CVPR2023】GeoLayoutLM:视觉信息提取的几何预训练
专知会员服务
30+阅读 · 2023年4月25日
【AAAI2022】基于对比学习的预训练语言模型剪枝压缩
专知会员服务
27+阅读 · 2022年1月24日
专知会员服务
14+阅读 · 2021年9月11日
专知会员服务
62+阅读 · 2021年3月12日
专知会员服务
29+阅读 · 2020年9月18日
相关基金
国家自然科学基金
11+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2012年12月31日
相关论文
微信扫码咨询专知VIP会员