随着在线内容中图像数量的激增,语言引导的图像检索(Language‑Guided Image Retrieval,LGIR)在过去十年间成为研究热点,涵盖了输入形式多样的若干子任务。虽然大型多模态模型(Large Multimodal Models,LMMs)的发展显著推动了这些任务的进步,但现有方法往往将各子任务割裂处理,需要为每个任务单独构建系统。这不仅增加了系统复杂度与维护成本,还因语言歧义与图像内容复杂性而加剧检索不准确、结果不可靠的问题。

为此,我们提出 ImageScope ——一个无需额外训练的三阶段框架,通过集体推理(collective reasoning)统一解决 LGIR 任务。其核心洞见在于利用语言的组合性:先将各种 LGIR 任务转化为通用的文本‑到‑图像检索流程,再借助 LMM 的推理作为统一验证环节来精炼结果。 * 阶段一:基于思维链(Chain‑of‑Thought, CoT)推理,在不同语义粒度层面综合生成检索意图,从而提升框架的鲁棒性。 * 阶段二与阶段三:先对检索结果进行局部谓词命题验证,然后在全局范围内执行成对比较评估,实现反思式优化。

在六个 LGIR 数据集上的实验表明,ImageScope 的性能全面超越竞争性基线。进一步的综合评估与消融实验亦充分验证了我们设计的有效性。

成为VIP会员查看完整内容
2

相关内容

【CVPR2025】CoLLM:面向组合图像检索的大语言模型
【NeurIPS2022】通过模型转换的可解释强化学习
专知会员服务
37+阅读 · 2022年10月4日
专知会员服务
51+阅读 · 2021年8月13日
专知会员服务
44+阅读 · 2021年7月6日
【CVPR2021】跨模态检索的概率嵌入
专知
17+阅读 · 2021年3月2日
【NeurIPS2019】图变换网络:Graph Transformer Network
深度学习与计算机视觉任务应用综述
深度学习与NLP
50+阅读 · 2018年12月18日
国家自然科学基金
14+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
A Survey of Large Language Models
Arxiv
452+阅读 · 2023年3月31日
Arxiv
68+阅读 · 2022年9月7日
Arxiv
18+阅读 · 2021年3月16日
A survey on deep hashing for image retrieval
Arxiv
15+阅读 · 2020年6月10日
Augmentation for small object detection
Arxiv
11+阅读 · 2019年2月19日
Arxiv
11+阅读 · 2018年7月31日
VIP会员
相关基金
国家自然科学基金
14+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
相关论文
A Survey of Large Language Models
Arxiv
452+阅读 · 2023年3月31日
Arxiv
68+阅读 · 2022年9月7日
Arxiv
18+阅读 · 2021年3月16日
A survey on deep hashing for image retrieval
Arxiv
15+阅读 · 2020年6月10日
Augmentation for small object detection
Arxiv
11+阅读 · 2019年2月19日
Arxiv
11+阅读 · 2018年7月31日
微信扫码咨询专知VIP会员