Text-to-Image Person Retrieval (TIPR) is a cross-modal matching task designed to identify the person images that best correspond to a given textual description. The key difficulty in TIPR is to realize robust correspondence between the textual and visual modalities within a unified latent representation space. To address this challenge, prior approaches incorporate attention mechanisms for implicit cross-modal local alignment. However, they lack the ability to verify whether all local features are correctly aligned. Moreover, existing methods tend to emphasize the utilization of hard negative samples during model optimization to strengthen discrimination between positive and negative pairs, often neglecting incorrectly matched positive pairs. To mitigate these problems, we propose FMFA, a cross-modal Full-Mode Fine-grained Alignment framework, which enhances global matching through explicit fine-grained alignment and existing implicit relational reasoning -- hence the term ``full-mode'' -- without introducing extra supervisory signals. In particular, we propose an Adaptive Similarity Distribution Matching (A-SDM) module to rectify unmatched positive sample pairs. A-SDM adaptively pulls the unmatched positive pairs closer in the joint embedding space, thereby achieving more precise global alignment. Additionally, we introduce an Explicit Fine-grained Alignment (EFA) module, which makes up for the lack of verification capability of implicit relational reasoning. EFA strengthens explicit cross-modal fine-grained interactions by sparsifying the similarity matrix and employs a hard coding method for local alignment. We evaluate our method on three public datasets, where it attains state-of-the-art results among all global matching methods. The code for our method is publicly accessible at https://github.com/yinhao1102/FMFA.


翻译:文本到图像行人检索(TIPR)是一项跨模态匹配任务,旨在识别与给定文本描述最相符的行人图像。TIPR的核心难点在于在统一的潜在表示空间中实现文本与视觉模态之间的鲁棒对应。为应对这一挑战,先前的研究方法引入了注意力机制以实现隐式的跨模态局部对齐。然而,这些方法缺乏验证所有局部特征是否已正确对齐的能力。此外,现有方法在模型优化过程中往往侧重于利用困难负样本来增强正负样本对之间的区分度,却常常忽视了错误匹配的正样本对。为缓解这些问题,我们提出了FMFA——一个跨模态全模式细粒度对齐框架,该框架通过显式的细粒度对齐和现有的隐式关系推理来增强全局匹配(因此称为“全模式”),而无需引入额外的监督信号。具体而言,我们提出了一个自适应相似度分布匹配模块来校正未匹配的正样本对。A-SDM在联合嵌入空间中自适应地将未匹配的正样本对拉近,从而实现更精确的全局对齐。此外,我们引入了一个显式细粒度对齐模块,以弥补隐式关系推理在验证能力上的不足。EFA通过对相似度矩阵进行稀疏化来加强显式的跨模态细粒度交互,并采用硬编码方法进行局部对齐。我们在三个公开数据集上评估了所提方法,结果表明其在所有全局匹配方法中达到了最先进的性能。本方法的代码已公开于 https://github.com/yinhao1102/FMFA。

0
下载
关闭预览

相关内容

【CVPR2024】掩码自解码器是有效的多任务视觉通用模型
专知会员服务
20+阅读 · 2024年3月16日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员