组合图像检索(CIR)是一项复杂的多模态查询任务,其目标是根据参考图像与文本修改描述检索目标图像。传统方法依赖包含(参考图像、修改文本、目标图像)的三元组数据进行训练,但此类数据获取成本高昂且耗时。现有CIR数据集的稀缺性催生了零样本方法,例如利用合成三元组或基于网络爬取的图像-标题对训练视觉-语言模型(VLMs)。然而,这些方法存在显著缺陷:合成三元组存在规模有限、多样性不足、修改文本不自然等问题;而图像-标题对由于缺乏三元组结构,难以学习多模态查询的联合嵌入表示。此外,现有方法对需要深度视觉-语言融合的复杂语义修改文本处理能力不足。本文提出CoLLM——一个端到端解决方案框架,有效解决了上述限制。该框架的创新性体现在:动态三元组生成:从图像-标题对中实时生成训练三元组,无需人工标注即可实现监督学习;深度多模态融合:利用大语言模型(LLMs)构建参考图像与修改文本的联合嵌入表示;数据集贡献:发布MTCIR大规模数据集(含340万样本);优化现有CIR基准(CIRR与Fashion-IQ),提升评估可靠性。实验表明,CoLLM在多个CIR基准测试中达到SOTA性能,MTCIR数据集可带来最高15%的性能提升。优化后的基准为CIR模型提供了更可靠的评估体系。项目页面详见collm-cvpr25.github.io。

成为VIP会员查看完整内容
10

相关内容

【AAAI2025】SAIL:面向样本的上下文学习用于文档信息提取
专知会员服务
20+阅读 · 2024年12月24日
【KDD2024】HiGPT:异构图语言模型
专知会员服务
19+阅读 · 2024年7月9日
【CVPR2024】渐进式语义引导视觉变换器用于零样本学习
专知会员服务
19+阅读 · 2024年4月13日
【CVPR2022】GaTector:凝视对象预测的统一框架
专知会员服务
10+阅读 · 2022年3月24日
【ECCV2020】EfficientFCN:语义分割中的整体引导解码器
专知会员服务
17+阅读 · 2020年8月23日
【NeurIPS2019】图变换网络:Graph Transformer Network
国家自然科学基金
14+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2016年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
A Survey of Large Language Models
Arxiv
447+阅读 · 2023年3月31日
Augmentation for small object detection
Arxiv
11+阅读 · 2019年2月19日
Deep Face Recognition: A Survey
Arxiv
18+阅读 · 2019年2月12日
VIP会员
相关VIP内容
【AAAI2025】SAIL:面向样本的上下文学习用于文档信息提取
专知会员服务
20+阅读 · 2024年12月24日
【KDD2024】HiGPT:异构图语言模型
专知会员服务
19+阅读 · 2024年7月9日
【CVPR2024】渐进式语义引导视觉变换器用于零样本学习
专知会员服务
19+阅读 · 2024年4月13日
【CVPR2022】GaTector:凝视对象预测的统一框架
专知会员服务
10+阅读 · 2022年3月24日
【ECCV2020】EfficientFCN:语义分割中的整体引导解码器
专知会员服务
17+阅读 · 2020年8月23日
相关基金
国家自然科学基金
14+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2016年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员