随着CLIP等预训练视觉-语言(VL)模型在视觉表示任务中的成功,将预训练模型迁移到下游任务已成为一个关键范式。最近,源自自然语言处理(NLP)的提示调整范式在VL领域取得了显著进展。然而,早期方法主要集中于为文本和视觉输入构建提示模板,忽略了VL模型与下游任务之间类别标签表示的差距。为了应对这一挑战,我们引入了一种名为LAMM的创新标签对齐方法,可以通过端到端训练动态调整下游数据集的类别嵌入。此外,为了实现更合适的标签分布,我们提出了一个分层损失,包括参数空间、特征空间和逻辑空间的对齐。我们在11个下游视觉数据集上进行了实验,并证明了我们的方法显著提高了现有多模态提示学习模型在小样本场景中的性能,与最先进方法相比,在16次射击上平均准确率提高了2.31(%)。此外,我们的方法在持续学习方面与其他提示调整方法相比显示出了优势。重要的是,我们的方法与现有的提示调整方法是协同的,并可以在它们的基础上提高性能。我们的代码和数据集将在https://github.com/gaojingsheng/LAMM上公开。

成为VIP会员查看完整内容
41

相关内容

【WWW2024】RecDCL: 双重对比学习用于推荐
专知会员服务
23+阅读 · 2024年1月30日
【CVPR2023】GeoLayoutLM:视觉信息提取的几何预训练
专知会员服务
32+阅读 · 2023年4月25日
专知会员服务
15+阅读 · 2021年9月11日
专知会员服务
63+阅读 · 2021年3月12日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Arxiv
174+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
494+阅读 · 2023年3月31日
VIP会员
相关VIP内容
【WWW2024】RecDCL: 双重对比学习用于推荐
专知会员服务
23+阅读 · 2024年1月30日
【CVPR2023】GeoLayoutLM:视觉信息提取的几何预训练
专知会员服务
32+阅读 · 2023年4月25日
专知会员服务
15+阅读 · 2021年9月11日
专知会员服务
63+阅读 · 2021年3月12日
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
相关论文
微信扫码咨询专知VIP会员