Composed Image Retrieval (CIR) aims to find a target image that aligns with user intent, expressed through a reference image and a modification text. While Zero-shot CIR (ZS-CIR) methods sidestep the need for labeled training data by leveraging pretrained vision-language models, they often rely on a single fused query that merges all descriptive cues of what the user wants, tending to dilute key information and failing to account for what they wish to avoid. Moreover, current CIR benchmarks assume a single correct target per query, overlooking the ambiguity in modification texts. To address these challenges, we propose Soft Filtering with Textual constraints (SoFT), a training-free, plug-and-play filtering module for ZS-CIR. SoFT leverages multimodal large language models (LLMs) to extract two complementary constraints from the reference-modification pair: prescriptive (must-have) and proscriptive (must-avoid) constraints. These serve as semantic filters that reward or penalize candidate images to re-rank results, without modifying the base retrieval model or adding supervision. In addition, we construct a two-stage dataset pipeline that refines CIR benchmarks. We first identify multiple plausible targets per query to construct multi-target triplets, capturing the open-ended nature of user intent. Then guide multimodal LLMs to rewrite the modification text to focus on one target, while referencing contrastive distractors to ensure precision. This enables more comprehensive and reliable evaluation under varying ambiguity levels. Applied on top of CIReVL, a ZS-CIR retriever, SoFT raises R@5 to 65.25 on CIRR (+12.94), mAP@50 to 27.93 on CIRCO (+6.13), and R@50 to 58.44 on FashionIQ (+4.59), demonstrating broad effectiveness.


翻译:组合图像检索旨在根据用户意图(通过参考图像和修改文本来表达)查找与之匹配的目标图像。零样本组合图像检索方法通过利用预训练的视觉-语言模型避免了标注训练数据的需求,但通常依赖于融合所有描述性线索的单一查询,这往往稀释关键信息且未能考虑用户希望避免的内容。此外,当前组合图像检索基准假设每个查询仅存在单一正确目标,忽略了修改文本中的歧义性。为应对这些挑战,我们提出基于文本约束的软过滤方法——一种用于零样本组合图像检索的免训练即插即用过滤模块。该方法利用多模态大语言模型从参考-修改对中提取两种互补约束:规定性约束(必须满足)和禁止性约束(必须避免)。这些约束作为语义过滤器,通过奖励或惩罚候选图像来重新排序检索结果,无需修改基础检索模型或增加监督信号。此外,我们构建了包含两阶段数据处理流程的数据集管道以改进组合图像检索基准:首先识别每个查询的多个合理目标以构建多目标三元组,捕捉用户意图的开放性特征;随后引导多模态大语言模型重写修改文本以聚焦单一目标,同时参考对比性干扰项以确保精确性。这使得在不同歧义程度下能进行更全面可靠的评估。在零样本组合图像检索检索器CIReVL上应用本方法后,在CIRR数据集上R@5提升至65.25(+12.94),在CIRCO数据集上mAP@50提升至27.93(+6.13),在FashionIQ数据集上R@50提升至58.44(+4.59),证明了其广泛有效性。

0
下载
关闭预览

相关内容

【CVPR2022】MSDN: 零样本学习的互语义蒸馏网络
专知会员服务
21+阅读 · 2022年3月8日
LibRec 每周算法:LDA主题模型
LibRec智能推荐
29+阅读 · 2017年12月4日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员