**对比语言-图像预训练(CLIP)**在图文检索和零样本分类等多模态任务中表现出色,但由于其侧重于粗粒度的简短图文描述,在细粒度理解方面存在不足。为了解决这一问题,我们提出了 细粒度CLIP(FG-CLIP),通过三项关键创新提升细粒度理解能力。 首先,我们利用大规模多模态模型生成了 16亿条长文本描述-图像对,以捕捉全局语义细节。其次,我们构建了一个高质量数据集,包含 1200万张图像和4000万个区域级别的边界框,并与详细文本描述对齐,从而确保精确、具有上下文信息的表示。第三,我们引入了 1000万个具有挑战性的细粒度负样本,提升模型区分细微语义差异的能力。 我们构建了一个综合性数据集,命名为 FgGRN,将高质量的区域级注释与具有挑战性的细粒度负样本整合在一起,并为这些数据精心设计了相应的训练方法。 大量实验表明,FG-CLIP 在多种下游任务中均优于原始的 CLIP 和其他最新方法,包括细粒度理解、开放词汇物体检测、图文检索以及通用多模态基准测试。这些结果突显了 FG-CLIP 在捕捉细粒度图像细节和提升整体模型性能方面的有效性。数据、代码和模型已开源,地址为:https://github.com/360CVGroup/FG-CLIP。

成为VIP会员查看完整内容
1

相关内容

【CVPR2024】VidLA: 大规模视频-语言对齐
专知会员服务
20+阅读 · 2024年3月31日
【NeurIPS2023】基于语义对齐的潜空间翻译
专知会员服务
21+阅读 · 2023年11月2日
【AAAI2023】不确定性感知的图像描述生成
专知会员服务
26+阅读 · 2022年12月4日
【AAAI2023】用单塔Transformer统一视觉语言表示空间
专知会员服务
16+阅读 · 2022年11月27日
【CVPR2022】EDTER:基于Transformer的边缘检测(CVPR2022)
专知会员服务
33+阅读 · 2022年3月18日
专知会员服务
23+阅读 · 2021年9月5日
专知会员服务
15+阅读 · 2021年7月24日
【Tutorial】计算机视觉中的Transformer,98页ppt
专知
21+阅读 · 2021年10月25日
[CVPR 2021] 序列到序列对比学习的文本识别
专知
10+阅读 · 2021年4月14日
【AAAI2021】自监督对应学习的对比转换
专知
12+阅读 · 2020年12月11日
【ICML2020】对比多视角表示学习
专知
19+阅读 · 2020年6月28日
【CVPR2019】弱监督图像分类建模
深度学习大讲堂
38+阅读 · 2019年7月25日
NLP(自然语言处理)扫盲
大数据和云计算技术
20+阅读 · 2017年7月9日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
A Survey of Large Language Models
Arxiv
461+阅读 · 2023年3月31日
Arxiv
76+阅读 · 2023年3月26日
Arxiv
168+阅读 · 2023年3月24日
Arxiv
24+阅读 · 2023年3月17日
VIP会员
相关主题
相关VIP内容
【CVPR2024】VidLA: 大规模视频-语言对齐
专知会员服务
20+阅读 · 2024年3月31日
【NeurIPS2023】基于语义对齐的潜空间翻译
专知会员服务
21+阅读 · 2023年11月2日
【AAAI2023】不确定性感知的图像描述生成
专知会员服务
26+阅读 · 2022年12月4日
【AAAI2023】用单塔Transformer统一视觉语言表示空间
专知会员服务
16+阅读 · 2022年11月27日
【CVPR2022】EDTER:基于Transformer的边缘检测(CVPR2022)
专知会员服务
33+阅读 · 2022年3月18日
专知会员服务
23+阅读 · 2021年9月5日
专知会员服务
15+阅读 · 2021年7月24日
相关资讯
【Tutorial】计算机视觉中的Transformer,98页ppt
专知
21+阅读 · 2021年10月25日
[CVPR 2021] 序列到序列对比学习的文本识别
专知
10+阅读 · 2021年4月14日
【AAAI2021】自监督对应学习的对比转换
专知
12+阅读 · 2020年12月11日
【ICML2020】对比多视角表示学习
专知
19+阅读 · 2020年6月28日
【CVPR2019】弱监督图像分类建模
深度学习大讲堂
38+阅读 · 2019年7月25日
NLP(自然语言处理)扫盲
大数据和云计算技术
20+阅读 · 2017年7月9日
相关基金
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员