多模态复合编辑与检索综述

在现实世界中，信息跨越不同模态且种类繁多，理解并利用多种数据类型来改进检索系统是研究的关键重点之一。多模态复合检索集成了文本、图像、音频等多种模态，以提供更精准、个性化和上下文相关的结果。为了促进对这一有前景方向的深入理解，本综述深入探讨了多模态复合编辑与检索，涵盖了图文复合编辑、图文复合检索及其他多模态复合检索。本文系统整理了应用场景、方法、基准、实验以及未来方向。在大模型时代，多模态学习是一个热门话题，同时也见证了《PAMI》期刊上关于多模态学习和视觉-语言模型与Transformers的若干综述的发表。据我们所知，本综述是首个关于多模态复合检索的全面文献回顾，是对现有多模态融合综述的及时补充。为了帮助读者快速跟踪这一领域的进展，我们为本综述建立了项目页面，访问地址为：https://github.com/fuxianghuang1/Multimodal-Composite-Editing-and-Retrieval。关键词——多模态复合检索，多模态融合，图像检索，图像编辑。

引言

在当今的数字化环境中，信息通过文本、图像、音频和雷达等多种渠道传递，导致数据量和复杂性的显著增加。随着数据呈指数级扩展，处理和整合多样化信息的挑战变得至关重要。高效检索个性化且相关的信息变得越来越具有挑战性。

传统的单模态检索方法[37], [49], [55], [83], [86], [87], [226]–[228], [237], [239]依赖于单一模态，如图像或文本，作为查询。然而，这些方法往往难以充分捕捉真实世界信息检索场景的复杂性和细微差别。这一局限性促使多模态复合图像检索[11], [21], [28], [88], [106], [172], [190]的出现，这是一个超越单一模态边界的有前途的框架。通过利用各种数据类型的互补优势，多模态复合检索系统增强了对用户查询和上下文的理解，从而提高了检索性能和用户满意度。如图1所示，多模态复合检索涉及将文本、图像、音频等多样化的数据形式进行复杂的融合与分析，以实现信息检索。这种方法在多个现实场景中具有重要价值，包括多媒体内容[80]、社交媒体平台和电子商务[59], [70], [150], [194], [203]。此外，它的应用还涉及一些专门领域，如医学图像检索[19], [65], [144]、文档检索[72], [80]和新闻检索[178]。通过采用多样的多模态查询，这些技术能够提供灵活且准确的结果，从而提升用户体验，帮助做出更明智的决策。因此，多模态复合检索在信息科学、人工智能以及跨学科应用中具有重要的潜力和研究价值。大多数现有的多模态复合检索方法[4], [11], [27], [28], [77], [85], [88], [106], [115], [132], [190]主要集中在集成图像和文本以实现预期结果。早期方法采用卷积神经网络（CNN）进行图像编码，并使用长短期记忆（LSTM）网络[108]进行文本编码。随着强大Transformer模型的兴起，如Vision Transformer (ViT) [186]、Swin Transformer (Swin) [128]和BERT [102]，提出了众多基于Transformer的多模态复合检索方法[184], [208]，以提高图像检索性能。此外，视觉-语言预训练（VLP）[94], [120], [121], [158]通过弥合文本描述和视觉内容之间的语义差距，改变了与图像理解和检索相关的任务。多种基于VLP的多模态复合图像检索方法[11], [85], [132]显示出有前景的结果。此外，图文复合编辑方法[31], [39], [46], [71], [118], [119], [126], [152], [232]使用户能够通过自然语言指令直接修改图像或生成新内容，从而实现与用户意图高度一致的精确检索。对音频[2]和动作[215]等其他模态的探索也正在加速进行。

动机

尽管在多模态复合检索模型上已有广泛研究，但新的挑战不断涌现，仍有待解决。在这一快速发展的领域中，迫切需要进行全面、系统的分析。本综述旨在通过系统地组织应用场景、方法、基准、实验以及未来方向，促进对多模态复合编辑与检索的深入理解。我们回顾并分类了130多种先进的多模态复合检索方法，为进一步研究奠定了坚实的基础。

文献收集策略

为了确保对多模态复合检索的全面概述，我们采用了一种系统的搜索策略，涵盖了广泛的相关文献。我们的重点包括多模态检索系统中的创新方法、应用和进展。我们选择了诸如“多模态复合检索”、“多模态学习”、“图像检索”、“图像编辑”和“特征融合”等关键词，涵盖了这一领域的各个方面。这些术语反映了多模态研究中常见的基础概念、具体技术和新兴趋势。我们在知名学术数据库中进行了搜索，包括Google Scholar、DBLP、ArXiv、ACM和IEEE Xplore。通过这些探索，我们收集了多种来源，包括期刊文章、会议论文和预印本。为了精炼我们的选择，我们排除了主要专注于单模态方法或不相关模态的研究，并手动审核了剩余文献的相关性和质量。最终选择过程中，我们基于每篇论文的贡献和影响进行了评估，以便为深入分析策划关键研究。通过应用这些标准，我们力图为多模态复合检索的当前形势和未来方向提供全面的视角。

分类

为了澄清与多模态复合编辑和检索相关的讨论，我们将其按应用场景分为三类，即1) 图文复合编辑，2) 图文复合检索和3) 其他多模态复合检索，如图2所示。具体来说，图文复合编辑涉及通过自然语言指令修改图像或创建全新内容，用户可以清晰直观地传达其意图。图文复合检索则通过输入文本和图像信息来搜索个性化结果，从而通过文本描述定位相关图像或根据图像生成描述性文本，提升搜索体验。其他多模态复合检索任务则将音频、动作等不同模态的组合作为输入，提供更丰富和灵活的上下文感知检索体验。

贡献

总而言之，我们的贡献如下： * 据我们所知，本文是首个关于多模态复合检索的全面综述，旨在为这一快速发展的领域提供及时的概览和宝贵的见解，为未来的研究提供参考。 * 我们系统地组织了研究成果、技术方法、基准和实验，帮助理解这一主题，并通过多层次的分类为现有研究提供广泛的覆盖，满足读者的多样化需求。 * 我们解决了多模态复合检索中的挑战和未解问题，识别了新兴趋势并提出了可行的未来研究方向，以推动该领域的创新。

论文组织

本文其余部分的结构如下。第二部分介绍了与多模态复合检索相关的基础概念和应用，并为讨论的方法奠定了背景。第三部分深入探讨了该领域使用的各种方法，并根据其基本原理进行分类，分析其优缺点。第四部分概述了用于评估这些方法的基准和实验设置，并展示了最新研究的结果。第五部分讨论了多模态复合检索的现状，指出了挑战并提出了未来研究方向。最后，第六部分总结了关键发现并强调了这一领域对未来研究的重要性。