尽管多模态大型语言模型(MLLMs)展示了有希望的多功能能力,它们在下游任务上的表现仍然不如专门的模型,这使得调整它们以增强其实用性变得必要。然而,微调方法需要对每个模型进行独立训练,导致巨大的计算和内存开销。在本文中,我们提出了一个新的设置,旨在通过一组为下游任务优化的共享参数来提高不同MLLMs的性能。为此,我们提出了可转移视觉提示(Transferable Visual Prompting,TVP),一种简单而有效的方法,用于生成可以转移到不同模型并在仅在一个模型上训练后提高其在下游任务上的表现的视觉提示。我们引入两种策略来解决现有视觉提示方法的跨模型特征污染问题,并增强学到的提示的可转移性,包括1) 特征一致性对齐:对提示的特征变化施加约束,以保持与任务无关的知识;2) 任务语义丰富:鼓励提示图像在语言指导下包含更丰富的任务特定语义。我们通过与6种现代MLLMs在从对象识别和计数到多模态推理和幻觉校正等广泛任务上的大量实验,验证了TVP的有效性。

成为VIP会员查看完整内容
19

相关内容

【CVPR2024】视觉-语言模型的高效测试时间调整
专知会员服务
19+阅读 · 3月30日
【ICML2023】通过离散扩散建模实现高效和度引导的图生成
【NeurIPS2022】基于结构聚类的自监督异构图预训练
专知会员服务
23+阅读 · 2022年10月20日
【NeurIPS 2021】基于潜在空间能量模型的可控和组分生成
专知会员服务
16+阅读 · 2021年10月23日
专知会员服务
18+阅读 · 2021年9月13日
专知会员服务
16+阅读 · 2021年9月8日
【ACMMM2020】零样本语义分割的上下文感知特征生成
专知会员服务
15+阅读 · 2020年8月21日
【KDD2020】图神经网络生成式预训练
专知
22+阅读 · 2020年7月3日
论文浅尝 | 远程监督关系抽取的生成式对抗训练
开放知识图谱
17+阅读 · 2018年7月12日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
25+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
157+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
398+阅读 · 2023年3月31日
Arxiv
66+阅读 · 2023年3月26日
Arxiv
139+阅读 · 2023年3月24日
Arxiv
20+阅读 · 2023年3月17日
VIP会员
相关VIP内容
【CVPR2024】视觉-语言模型的高效测试时间调整
专知会员服务
19+阅读 · 3月30日
【ICML2023】通过离散扩散建模实现高效和度引导的图生成
【NeurIPS2022】基于结构聚类的自监督异构图预训练
专知会员服务
23+阅读 · 2022年10月20日
【NeurIPS 2021】基于潜在空间能量模型的可控和组分生成
专知会员服务
16+阅读 · 2021年10月23日
专知会员服务
18+阅读 · 2021年9月13日
专知会员服务
16+阅读 · 2021年9月8日
【ACMMM2020】零样本语义分割的上下文感知特征生成
专知会员服务
15+阅读 · 2020年8月21日
相关基金
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
25+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员