组合图像检索(Composed Image Retrieval, CIR)是一项新兴且具有挑战性的任务,允许用户使用多模态查询搜索目标图像,该查询包括参考图像和指定用户对参考图像期望修改的文本。鉴于其重要的学术和实用价值,CIR已成为计算机视觉和机器学习社区中快速发展的研究领域,尤其是在深度学习的推动下。据我们所知,目前尚无关于CIR的全面综述来及时概述这一领域。因此,我们综合了来自120多篇顶级会议和期刊(如ACM TOIS、SIGIR和CVPR)的见解,系统地对现有监督CIR和零样本CIR模型进行了细粒度分类。 为了全面回顾,我们还简要讨论了与CIR密切相关的任务方法,例如基于属性的CIR和基于对话的CIR。此外,我们总结了用于评估的基准数据集,并通过比较多个数据集的实验结果分析了现有的监督和零样本CIR方法。最后,我们提出了该领域的未来研究方向,为有兴趣进一步探索的研究人员提供了实用见解。
自20世纪70年代以来,图像检索一直是计算机视觉和数据库管理中的一项基本任务[36],并作为人脸识别[47]、时尚检索[182]和行人重识别[92]等各种应用的基石。传统的图像检索系统主要依赖于单模态查询,使用文本或图像来表达用户的搜索意图[33, 120, 121, 125]。然而,用户通常难以通过单一文本查询清晰地表达搜索意图,或找到完美代表其意图的图像。为了解决这些局限性并提供更大的灵活性,组合图像检索(Composed Image Retrieval, CIR)于2019年应运而生[154],它允许用户通过参考图像结合指定修改需求的文本描述来表达搜索意图。通过使用更细致的搜索查询,CIR在电子商务[43]和互联网搜索引擎[75, 118, 156, 167]等领域具有显著提升搜索体验的潜力。
CIR的概念允许用户使用多模态查询表达搜索意图,可以轻松适应各种现实世界的检索场景。例如,参考图像可以替换为参考视频以实现组合视频检索,或者单轮CIR可以演变为基于对话的多轮图像检索。自2019年提出以来,CIR因其在各个领域的潜在价值而受到越来越多的研究关注。如图1所示,关于CIR的出版物数量正在迅速增长。为了总结这一快速发展领域的过去和当前成就,我们对截至2024年11月的研究工作进行了全面概述。现有研究主要关注解决以下关键挑战:
该领域的现有工作大致可分为两大类:基于监督学习的方法和基于零样本学习的方法。这些方法的关键区别在于标注训练三元组的可用性。监督方法依赖于数据集中的标注三元组来训练模型,而零样本方法利用大规模、易于获取的数据(如图像-文本对)进行预训练,而无需标注三元组进行优化。为了便于深入分析,我们为每个类别建立了细粒度的分类法。对于监督CIR方法,我们基于通用框架的四个关键组件总结了现有方法:特征提取、图像-文本融合、目标匹配和数据增强。对于零样本组合图像检索(ZS-CIR)方法,我们将方法分为三类:基于文本反演的、基于伪三元组的和无训练的。如前所述,使用组合多模态查询的概念可以适应各种场景。除了CIR的主要任务外,一些相关任务也涉及组合查询,例如参考图像加属性操作、草图加修改文本以及视频加修改文本。由于这些任务与CIR密切相关,我们将其最新进展纳入其中,以提供对该主题的全面回顾。根据多模态查询的类型,我们将这些相关任务分为五类:基于属性的、基于草图的、基于遥感的、基于对话的和基于视频的。 总之,我们的主要贡献如下: