【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

2017 年 12 月 21 日 专知专知内容组（编）

【导读】近日，新加坡南洋理工大学、美国莱斯大学和阿里巴巴AI Labs联合提出了一种采用生成模型（Generative Models）来提升跨模态检索效果的方法。该方法在文本-视觉卷积跨模态特征表示中引入了图像-文本生成和文本-图像生成两种模型，使得最终的提出的生成式跨模态特征学习框架（generative cross-modal feature learning framework，GXN）不仅可以学习到高层的全局的抽象表示，还能有效地学习到局部的底层特征表示来捕捉两个模态之间精细的局部相似度。该方法在MSCOCO数据集上超过了现有的最好的方法。

论文：Look, Imagine and Match: Improving Textual-Visual Cross-Modal Retrieval with Generative Models

▌摘要

视觉-文本跨模态检索已经成为计算机视觉和自然语言处理领域的一个热点。为多模态数据学习出一个合适的表示空间对跨模态检索极其重要。不同于现有的将图像-文本对表示为单个的特征对并嵌入到一个公共表示空间的方法，这篇文章提出融合生成过程到跨模态表示中，这样不仅能学习到全局的抽象特征还能学习到局部的底层特征。大量的实验显示出提出的方法可以在复杂的内容中精准地匹配图像和文本描述，并且在MSCOCO数据集上进行的跨模态检索实验中取得了state-of-the-art的效果。

▌概述摘要

我们已经进入到了一个大数据时代，不同模态的数据例如文本，图像，视频正在以爆炸性的速度增长。这些模态展现出了异质的属性，使得用户很难快速高效地搜索到满意的搜索结果。所以，文本-视觉跨模态检索已经成为了一个计算机视觉和自然语言处理领域的研究热点。跨模态检索的核心是学习出一个合适的多模态数据表示空间，使得不同模态的数据可以在这个表示空间内进行直接的比较。

近年，研究人员已经提出了大量的方法来弥补不同模态之间的语义鸿沟。对于文本-视觉的跨模态表示，常见的方法就是首先每个模态的数据编码成各自的表示特征，然后将他们映射到一个共同的语义空间内，然后使用一个ranking loss来对其进行优化，使得相似的图像-文本对映射出的特征向量之间的距离小于不相似的图像-文本对之间的距离。尽管这种方法学习出的公共空间可以很好地描述多模态数据高层的语义概念，但是没有充分地挖掘图像的局部精细相似度和句子的词层次相似度。例如，人类在进行文本和图像的匹配时，会更多地关注他们中存在的细节信息，使得文本和图像的关联更加精准。换句话说，如果将一个模态的表示转换成另一个模态的表示，我们可以学习到一个更好的映射。

受到上述概念的启发，这篇文章在进行传统的全局语义层次上的文本-视觉跨模态表示之外，还引入文本-图像和图像-文本两个生成模型来进行局部层次的跨模态特征表示。下图展示了这种基本概念。

图1: GXN模型的主旨:主要包含三个步骤：Look,Imageine和Match。Look：给出一个查询文本或图像，提取出对应的抽象表示。Image:将第一步中得到的一种模态的特征表示生成为另一种模态表示，并将其和真实数据进行比较来生成一个更加精细的底层表示。Match:使用组合了高层抽象表示和局部底层表示的特征表示来进行图像-文本对的关联匹配。

▌详细内容

总体框架

图2展示的GXN模型的的总体结构，它主要包括三个模块：多模态特征表示部分（整个上部区域），图像-文本生成特征学习部分（蓝色通道）和文本-图像生成对抗特征学习部分（绿色通道）。

图2: 提出的生成式跨模态特征学习框架（generative cross-modal feature learning framework，GXN）

第一个部分相似于已经存在的跨模态特征表示:将不同模态的特征映射到一个公共的空间；不同之处在于本文使用了两路的特征表示来使表示出的视觉特征和文本特征接近。在这里作为高层抽象特征而作为精细的的底层特征。底层特征被用来指导其他两路进行生成式的特征学习。整个第一部分主要包括:一个图像编码器和两个语句编码器和。