【WWW2025】ImageScope：通过大型多模态模型集体推理统一语言引导的图像检索 - 专知VIP

会员服务 ·

1

WWW 2025 · 图像检索 · 多模态模型 ·

【WWW2025】ImageScope：通过大型多模态模型集体推理统一语言引导的图像检索

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

随着在线内容中图像数量的激增，语言引导的图像检索（Language‑Guided Image Retrieval，LGIR）在过去十年间成为研究热点，涵盖了输入形式多样的若干子任务。虽然大型多模态模型（Large Multimodal Models，LMMs）的发展显著推动了这些任务的进步，但现有方法往往将各子任务割裂处理，需要为每个任务单独构建系统。这不仅增加了系统复杂度与维护成本，还因语言歧义与图像内容复杂性而加剧检索不准确、结果不可靠的问题。

为此，我们提出 ImageScope ——一个无需额外训练的三阶段框架，通过集体推理（collective reasoning）统一解决 LGIR 任务。其核心洞见在于利用语言的组合性：先将各种 LGIR 任务转化为通用的文本‑到‑图像检索流程，再借助 LMM 的推理作为统一验证环节来精炼结果。 * 阶段一：基于思维链（Chain‑of‑Thought, CoT）推理，在不同语义粒度层面综合生成检索意图，从而提升框架的鲁棒性。 * 阶段二与阶段三：先对检索结果进行局部谓词命题验证，然后在全局范围内执行成对比较评估，实现反思式优化。

在六个 LGIR 数据集上的实验表明，ImageScope 的性能全面超越竞争性基线。进一步的综合评估与消融实验亦充分验证了我们设计的有效性。

成为VIP会员查看完整内容

2

相关内容

WWW 2025

【WWW2025】G-Refer：基于图检索增强的大型语言模型用于可解释推荐

【WWW2025】G-Refer：基于图检索增强的大型语言模型用于可解释推荐

专知会员服务

13+阅读 · 4月8日

【CVPR2025】CoLLM：面向组合图像检索的大语言模型

【CVPR2025】CoLLM：面向组合图像检索的大语言模型

专知会员服务

12+阅读 · 3月26日

【AAAI2025】通过现成的多模态大型语言模型进行零样本视频时刻检索

【AAAI2025】通过现成的多模态大型语言模型进行零样本视频时刻检索

专知会员服务

15+阅读 · 1月16日

【NeurlPS2024】一种适用于跨模态和任务的视觉-语言模型的统一去偏方法

【NeurlPS2024】一种适用于跨模态和任务的视觉-语言模型的统一去偏方法

专知会员服务

20+阅读 · 2024年10月11日

【CVPR2024】SNIFFER：用于可解释的脱离上下文谣言检测的多模态大型语言模型

【CVPR2024】SNIFFER：用于可解释的脱离上下文谣言检测的多模态大型语言模型

专知会员服务

19+阅读 · 2024年3月6日

【NeurIPS2022】通过模型转换的可解释强化学习

【NeurIPS2022】通过模型转换的可解释强化学习

专知会员服务

37+阅读 · 2022年10月4日

【ACL2021】基于隐含结构推理网络的事件因果关系识别

专知会员服务

51+阅读 · 2021年8月13日

【ICML2021】具有超参数重要性的可解释的自动图表示学习

专知会员服务

25+阅读 · 2021年7月18日

【KDD2021】基于知识图谱的神经回答逻辑查询

专知会员服务

44+阅读 · 2021年7月6日

【AAAI2020】基于属性指导和纯视觉的注意力对齐的小样本识别

【AAAI2020】基于属性指导和纯视觉的注意力对齐的小样本识别

专知会员服务

15+阅读 · 2021年1月14日

【CVPR2023】探索和利用不确定性的不完整多视角分类

【CVPR2023】探索和利用不确定性的不完整多视角分类

专知

39+阅读 · 2023年4月13日

【CVPR2021】CausalVAE: 引入因果结构的解耦表示学习

【CVPR2021】CausalVAE: 引入因果结构的解耦表示学习

专知

18+阅读 · 2021年3月28日

【CVPR2021】跨模态检索的概率嵌入

【CVPR2021】跨模态检索的概率嵌入

专知

17+阅读 · 2021年3月2日

【图神经网络多模态检索】Multi-Modal Retrieval using Graph Neural Networks

【图神经网络多模态检索】Multi-Modal Retrieval using Graph Neural Networks

专知

12+阅读 · 2020年10月9日

【NeurIPS2020-MIT】子图神经网络，Subgraph Neural Networks

【NeurIPS2020-MIT】子图神经网络，Subgraph Neural Networks

专知

38+阅读 · 2020年9月30日

基于深度神经网络的关键词提取，Keywords extraction with DNN

基于深度神经网络的关键词提取，Keywords extraction with DNN

专知

10+阅读 · 2020年5月7日

【ICLR2020-Facebook AI】张量分解的时序知识图谱补全

【ICLR2020-Facebook AI】张量分解的时序知识图谱补全

专知

10+阅读 · 2020年4月14日

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

专知

11+阅读 · 2020年3月17日

【NeurIPS2019】图变换网络：Graph Transformer Network

【NeurIPS2019】图变换网络：Graph Transformer Network

专知

245+阅读 · 2019年11月18日

深度学习与计算机视觉任务应用综述

深度学习与计算机视觉任务应用综述

深度学习与NLP

50+阅读 · 2018年12月18日

语义Web知识库补全关键技术研究

国家自然科学基金

14+阅读 · 2017年12月31日

基于DASH的交互式三维视频系统建模

国家自然科学基金

1+阅读 · 2015年12月31日

动态异质大图匹配模型及算法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于Spark的大图数据最优子模式匹配查询方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

SDN数据平面中大规模流表的高性能查找方法研究

国家自然科学基金

4+阅读 · 2015年12月31日

模糊认知集群优化的聚类算法

国家自然科学基金

8+阅读 · 2015年12月31日

面向大规模多步学习问题的学习分类元系统技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

状态空间搜索的anytime模式及其高效算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

高维复杂结构数据降维

国家自然科学基金

10+阅读 · 2014年12月31日

语音识别中的稀疏性深度学习

国家自然科学基金

11+阅读 · 2012年12月31日

A Comprehensive Survey on Deep Graph Representation Learning

Arxiv

98+阅读 · 2023年4月11日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

204+阅读 · 2023年4月7日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

452+阅读 · 2023年3月31日

A survey and taxonomy of loss functions in machine learning

Arxiv

23+阅读 · 2023年1月13日

Geometric multimodal representation learning

Arxiv

68+阅读 · 2022年9月7日

Deep learning: a statistical viewpoint

Arxiv

18+阅读 · 2021年3月16日

A survey on deep hashing for image retrieval

A survey on deep hashing for image retrieval

Arxiv

15+阅读 · 2020年6月10日

Hyper-SAGNN: a self-attention based graph neural network for hypergraphs

Hyper-SAGNN: a self-attention based graph neural network for hypergraphs

Arxiv

17+阅读 · 2019年11月6日

Augmentation for small object detection

Augmentation for small object detection

Arxiv

11+阅读 · 2019年2月19日

Deep learning in agriculture: A survey

Arxiv

11+阅读 · 2018年7月31日

VIP会员

相关主题

多模态模型

相关VIP内容

【WWW2025】G-Refer：基于图检索增强的大型语言模型用于可解释推荐

【WWW2025】G-Refer：基于图检索增强的大型语言模型用于可解释推荐

专知会员服务

13+阅读 · 4月8日

【CVPR2025】CoLLM：面向组合图像检索的大语言模型

【CVPR2025】CoLLM：面向组合图像检索的大语言模型

专知会员服务

12+阅读 · 3月26日

【AAAI2025】通过现成的多模态大型语言模型进行零样本视频时刻检索

【AAAI2025】通过现成的多模态大型语言模型进行零样本视频时刻检索

专知会员服务

15+阅读 · 1月16日

【NeurlPS2024】一种适用于跨模态和任务的视觉-语言模型的统一去偏方法

【NeurlPS2024】一种适用于跨模态和任务的视觉-语言模型的统一去偏方法

专知会员服务

20+阅读 · 2024年10月11日

【CVPR2024】SNIFFER：用于可解释的脱离上下文谣言检测的多模态大型语言模型

【CVPR2024】SNIFFER：用于可解释的脱离上下文谣言检测的多模态大型语言模型

专知会员服务

19+阅读 · 2024年3月6日

【NeurIPS2022】通过模型转换的可解释强化学习

【NeurIPS2022】通过模型转换的可解释强化学习

专知会员服务

37+阅读 · 2022年10月4日

【ACL2021】基于隐含结构推理网络的事件因果关系识别

专知会员服务

51+阅读 · 2021年8月13日

【ICML2021】具有超参数重要性的可解释的自动图表示学习

专知会员服务

25+阅读 · 2021年7月18日

【KDD2021】基于知识图谱的神经回答逻辑查询

专知会员服务

44+阅读 · 2021年7月6日

【AAAI2020】基于属性指导和纯视觉的注意力对齐的小样本识别

【AAAI2020】基于属性指导和纯视觉的注意力对齐的小样本识别

专知会员服务

15+阅读 · 2021年1月14日

热门VIP内容

开通专知VIP会员享更多权益服务

大模型慢思考技术探讨

《美国陆军工程兵团民用工程研发与技术战略》最新报告

《第一人称视角（FPV）无人机的运用：无人机战争的新范式》27页报告

中文版 | 泰雷兹"速毁者"验证机在英军测试中压制无人机蜂群

相关资讯

【CVPR2023】探索和利用不确定性的不完整多视角分类

【CVPR2023】探索和利用不确定性的不完整多视角分类

专知

39+阅读 · 2023年4月13日

【CVPR2021】CausalVAE: 引入因果结构的解耦表示学习

【CVPR2021】CausalVAE: 引入因果结构的解耦表示学习

专知

18+阅读 · 2021年3月28日

【CVPR2021】跨模态检索的概率嵌入

【CVPR2021】跨模态检索的概率嵌入

专知

17+阅读 · 2021年3月2日

【图神经网络多模态检索】Multi-Modal Retrieval using Graph Neural Networks

【图神经网络多模态检索】Multi-Modal Retrieval using Graph Neural Networks

专知

12+阅读 · 2020年10月9日

【NeurIPS2020-MIT】子图神经网络，Subgraph Neural Networks

【NeurIPS2020-MIT】子图神经网络，Subgraph Neural Networks

专知

38+阅读 · 2020年9月30日

基于深度神经网络的关键词提取，Keywords extraction with DNN

基于深度神经网络的关键词提取，Keywords extraction with DNN

专知

10+阅读 · 2020年5月7日

【ICLR2020-Facebook AI】张量分解的时序知识图谱补全

【ICLR2020-Facebook AI】张量分解的时序知识图谱补全

专知

10+阅读 · 2020年4月14日

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

专知

11+阅读 · 2020年3月17日

【NeurIPS2019】图变换网络：Graph Transformer Network

【NeurIPS2019】图变换网络：Graph Transformer Network

专知

245+阅读 · 2019年11月18日

深度学习与计算机视觉任务应用综述

深度学习与计算机视觉任务应用综述

深度学习与NLP

50+阅读 · 2018年12月18日

相关基金

语义Web知识库补全关键技术研究

国家自然科学基金

14+阅读 · 2017年12月31日

基于DASH的交互式三维视频系统建模

国家自然科学基金

1+阅读 · 2015年12月31日

动态异质大图匹配模型及算法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于Spark的大图数据最优子模式匹配查询方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

SDN数据平面中大规模流表的高性能查找方法研究

国家自然科学基金

4+阅读 · 2015年12月31日

模糊认知集群优化的聚类算法

国家自然科学基金

8+阅读 · 2015年12月31日

面向大规模多步学习问题的学习分类元系统技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

状态空间搜索的anytime模式及其高效算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

高维复杂结构数据降维

国家自然科学基金

10+阅读 · 2014年12月31日

语音识别中的稀疏性深度学习

国家自然科学基金

11+阅读 · 2012年12月31日

相关论文

A Comprehensive Survey on Deep Graph Representation Learning

Arxiv

98+阅读 · 2023年4月11日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

204+阅读 · 2023年4月7日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

452+阅读 · 2023年3月31日

A survey and taxonomy of loss functions in machine learning

Arxiv

23+阅读 · 2023年1月13日

Geometric multimodal representation learning

Arxiv

68+阅读 · 2022年9月7日

Deep learning: a statistical viewpoint

Arxiv

18+阅读 · 2021年3月16日

A survey on deep hashing for image retrieval

A survey on deep hashing for image retrieval

Arxiv

15+阅读 · 2020年6月10日

Hyper-SAGNN: a self-attention based graph neural network for hypergraphs

Hyper-SAGNN: a self-attention based graph neural network for hypergraphs

Arxiv

17+阅读 · 2019年11月6日

Augmentation for small object detection

Augmentation for small object detection

Arxiv

11+阅读 · 2019年2月19日

Deep learning in agriculture: A survey

Arxiv

11+阅读 · 2018年7月31日

微信扫码咨询专知VIP会员