组合图像检索的全面综述

组合图像检索（Composed Image Retrieval, CIR）是一项新兴且具有挑战性的任务，允许用户使用多模态查询搜索目标图像，该查询包括参考图像和指定用户对参考图像期望修改的文本。鉴于其重要的学术和实用价值，CIR已成为计算机视觉和机器学习社区中快速发展的研究领域，尤其是在深度学习的推动下。据我们所知，目前尚无关于CIR的全面综述来及时概述这一领域。因此，我们综合了来自120多篇顶级会议和期刊（如ACM TOIS、SIGIR和CVPR）的见解，系统地对现有监督CIR和零样本CIR模型进行了细粒度分类。为了全面回顾，我们还简要讨论了与CIR密切相关的任务方法，例如基于属性的CIR和基于对话的CIR。此外，我们总结了用于评估的基准数据集，并通过比较多个数据集的实验结果分析了现有的监督和零样本CIR方法。最后，我们提出了该领域的未来研究方向，为有兴趣进一步探索的研究人员提供了实用见解。

1 引言

自20世纪70年代以来，图像检索一直是计算机视觉和数据库管理中的一项基本任务[36]，并作为人脸识别[47]、时尚检索[182]和行人重识别[92]等各种应用的基石。传统的图像检索系统主要依赖于单模态查询，使用文本或图像来表达用户的搜索意图[33, 120, 121, 125]。然而，用户通常难以通过单一文本查询清晰地表达搜索意图，或找到完美代表其意图的图像。为了解决这些局限性并提供更大的灵活性，组合图像检索（Composed Image Retrieval, CIR）于2019年应运而生[154]，它允许用户通过参考图像结合指定修改需求的文本描述来表达搜索意图。通过使用更细致的搜索查询，CIR在电子商务[43]和互联网搜索引擎[75, 118, 156, 167]等领域具有显著提升搜索体验的潜力。

CIR的概念允许用户使用多模态查询表达搜索意图，可以轻松适应各种现实世界的检索场景。例如，参考图像可以替换为参考视频以实现组合视频检索，或者单轮CIR可以演变为基于对话的多轮图像检索。自2019年提出以来，CIR因其在各个领域的潜在价值而受到越来越多的研究关注。如图1所示，关于CIR的出版物数量正在迅速增长。为了总结这一快速发展领域的过去和当前成就，我们对截至2024年11月的研究工作进行了全面概述。现有研究主要关注解决以下关键挑战：

多模态查询融合：在CIR中，修改文本和参考图像在传达用户搜索意图方面起着互补作用。修改文本通常指定参考图像某些属性的变化。例如，给定修改需求“我希望裙子是黑色且更正式”，仅应改变参考图像中裙子的颜色和风格，而其他属性应保持不变。因此，如何实现有效的多模态融合以准确理解多模态查询是第一个挑战。
目标图像匹配：由于多模态查询和目标图像的异构表示，它们之间的语义差距是一个重大挑战。此外，修改文本的简洁性可能导致歧义。例如，文本“我希望将裙子改为长袖和黄色”可能有多种解释：袖子可以从无袖改为短袖或长袖，颜色可以从浅黄到深黄。这种歧义表明多个目标图像可能满足给定的查询。因此，弥合这种语义差距并管理查询与目标之间的一对多匹配关系对于准确的查询-目标匹配至关重要。
训练数据的规模：训练CIR模型通常需要形式为<参考图像, 修改文本, 目标图像>的三元组。对于每个三元组，参考-目标图像对通常通过启发式策略生成，而修改文本通常由人工标注。创建这样的训练样本既昂贵又耗时，这显著限制了基准数据集的规模。因此，解决训练数据不足的问题以提高模型的泛化能力仍然是一个重大挑战。

该领域的现有工作大致可分为两大类：基于监督学习的方法和基于零样本学习的方法。这些方法的关键区别在于标注训练三元组的可用性。监督方法依赖于数据集中的标注三元组来训练模型，而零样本方法利用大规模、易于获取的数据（如图像-文本对）进行预训练，而无需标注三元组进行优化。为了便于深入分析，我们为每个类别建立了细粒度的分类法。对于监督CIR方法，我们基于通用框架的四个关键组件总结了现有方法：特征提取、图像-文本融合、目标匹配和数据增强。对于零样本组合图像检索（ZS-CIR）方法，我们将方法分为三类：基于文本反演的、基于伪三元组的和无训练的。如前所述，使用组合多模态查询的概念可以适应各种场景。除了CIR的主要任务外，一些相关任务也涉及组合查询，例如参考图像加属性操作、草图加修改文本以及视频加修改文本。由于这些任务与CIR密切相关，我们将其最新进展纳入其中，以提供对该主题的全面回顾。根据多模态查询的类型，我们将这些相关任务分为五类：基于属性的、基于草图的、基于遥感的、基于对话的和基于视频的。总之，我们的主要贡献如下：

据我们所知，本文首次对CIR进行了全面综述，涵盖了120多项主要研究，旨在提供及时且深入的概述，以指导这一快速发展领域的未来研究。
我们系统地整理了研究成果、技术方法、基准和实验，以加深对该领域的理解。此外，我们提出了详细的方法分类法，以满足读者的多样化需求。
CIR仍然是一个新兴的研究领域。基于文献调研，我们确定了几个关键研究挑战，并提出了潜在的未来方向，为该领域的研究人员提供了前瞻性指导。本文的其余部分结构如图2所示。第2节和第3节分别回顾了监督CIR模型和零样本CIR模型。第4节介绍了与CIR相关的任务。第5节描述了当前可用的数据集、使用的评估指标以及现有方法的实验结果。最后，我们在第6节讨论了可能的未来研究方向，并在第7节总结了工作。