最近的轻量级图像描述模型使用检索数据,主要集中在文本提示上。然而,以往的研究仅将检索到的文本作为文本提示,视觉信息仅依赖于CLIP视觉嵌入。因此,存在一个问题,即提示中固有的图像描述未能充分反映在视觉嵌入空间中。为了解决这一问题,我们提出了ViPCap,一种用于轻量级图像描述的新型基于检索的文本视觉提示。ViPCap利用检索到的文本和图像信息作为视觉提示,增强模型捕捉相关视觉信息的能力。通过将文本提示映射到CLIP空间,并生成多个随机高斯分布,我们的方法利用采样探索随机增强的分布,并有效地检索包含图像信息的语义特征。这些检索到的特征被集成到图像中,并作为视觉提示,进而在COCO、Flickr30k和NoCaps等数据集上提高了性能。实验结果表明,ViPCap在效率和有效性上显著超越了以往的轻量级描述模型,展示了其作为即插即用解决方案的潜力。源代码可在https://github.com/taewhankim/VIPCAP找到。

成为VIP会员查看完整内容
9

相关内容

【TPAMI2024】增强视频-语言表示的结构时空对齐方法
专知会员服务
23+阅读 · 2024年6月30日
【CVPR2024】ViewDiff: 3D一致的图像生成与文本到图像模型
专知会员服务
29+阅读 · 2024年3月10日
【NeurIPS2023】朝向自解释的图级异常检测
专知会员服务
29+阅读 · 2023年10月26日
【ICML2022】基于自适应上下文池化的高效表示学习
专知会员服务
19+阅读 · 2022年7月9日
UTC: 用于视觉对话的任务间对比学习的统一Transformer
专知会员服务
13+阅读 · 2022年5月4日
专知会员服务
14+阅读 · 2021年6月26日
【AAAI2023】用于图对比学习的谱特征增强
专知
18+阅读 · 2022年12月11日
AAAI 2022 | ProtGNN:自解释图神经网络
专知
10+阅读 · 2022年2月28日
【ICML2021】因果匹配领域泛化
专知
12+阅读 · 2021年8月12日
【CVPR2021】跨模态检索的概率嵌入
专知
17+阅读 · 2021年3月2日
【NeurIPS2019】图变换网络:Graph Transformer Network
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
38+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
Arxiv
159+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
416+阅读 · 2023年3月31日
Arxiv
68+阅读 · 2023年3月26日
Arxiv
150+阅读 · 2023年3月24日
Arxiv
21+阅读 · 2023年3月17日
VIP会员
相关VIP内容
【TPAMI2024】增强视频-语言表示的结构时空对齐方法
专知会员服务
23+阅读 · 2024年6月30日
【CVPR2024】ViewDiff: 3D一致的图像生成与文本到图像模型
专知会员服务
29+阅读 · 2024年3月10日
【NeurIPS2023】朝向自解释的图级异常检测
专知会员服务
29+阅读 · 2023年10月26日
【ICML2022】基于自适应上下文池化的高效表示学习
专知会员服务
19+阅读 · 2022年7月9日
UTC: 用于视觉对话的任务间对比学习的统一Transformer
专知会员服务
13+阅读 · 2022年5月4日
专知会员服务
14+阅读 · 2021年6月26日
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
38+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员