The core problem of text-based person retrieval is how to bridge the heterogeneous gap between multi-modal data. Many previous approaches contrive to learning a latent common manifold mapping paradigm following a \textbf{cross-modal distribution consensus prediction (CDCP)} manner. When mapping features from distribution of one certain modality into the common manifold, feature distribution of the opposite modality is completely invisible. That is to say, how to achieve a cross-modal distribution consensus so as to embed and align the multi-modal features in a constructed cross-modal common manifold all depends on the experience of the model itself, instead of the actual situation. With such methods, it is inevitable that the multi-modal data can not be well aligned in the common manifold, which finally leads to a sub-optimal retrieval performance. To overcome this \textbf{CDCP dilemma}, we propose a novel algorithm termed LBUL to learn a Consistent Cross-modal Common Manifold (C$^{3}$M) for text-based person retrieval. The core idea of our method, just as a Chinese saying goes, is to `\textit{san si er hou xing}', namely, to \textbf{Look Before yoU Leap (LBUL)}. The common manifold mapping mechanism of LBUL contains a looking step and a leaping step. Compared to CDCP-based methods, LBUL considers distribution characteristics of both the visual and textual modalities before embedding data from one certain modality into C$^{3}$M to achieve a more solid cross-modal distribution consensus, and hence achieve a superior retrieval accuracy. We evaluate our proposed method on two text-based person retrieval datasets CUHK-PEDES and RSTPReid. Experimental results demonstrate that the proposed LBUL outperforms previous methods and achieves the state-of-the-art performance.
翻译:以文本为基础的个人检索的核心问题是如何弥合多模式数据之间的差异性差。 许多先前的方法都试图根据\ textbf{ 跨模式分布共识预测 (CDCP) 的方式学习一个潜在的共同的多元映射模式。 当映射从某种模式分布到共同模式的特性时, 反模式的特征分布是完全看不见的。 也就是说, 如何实现跨模式分配共识, 从而将多模式特性嵌入和调整在构建的跨模式共同方程式中的所有特性取决于模型本身的经验, 而不是实际的上调情况。 有了这样的方法, 多模式数据不可避免地无法在共同模式中很好地匹配 。 为了克服这种模式的分布, 我们提议了一个叫LBUL的新的算法, 学习一个一致的跨模式(C$3}M), 以基于文本为基础的个人检索。 我们的方法的核心理念, 也就是说, 在直观的直径径流( C- LL) 流分配方法之前, 直径流数据流的计算方法, 也就是正(LBU) 的正 方向, 方向, 向一个普通的 方向 格式 格式 方向, 方向 方向, 方向 方向, 方向, 方向, 向一个普通的LBUBUDUDR-L_ 格式 显示一个普通 格式 格式 格式 格式 格式 方向, 格式 方向 格式 格式 格式 格式 格式 格式 方向, 格式 格式 格式 向 向 向 方向 向 方向 方向 方向 向 向 方向 方向 方向 方向 向 向 方向 方向 方向 向 方向 方向 方向 方向 向 向 向 向 向 方向 方向 方向 方向 方向 方向 方向 方向 方向 方向 方向 向 向 向 方向 方向 方向 方向 方向 方向 方向 方向 方向 方向 方向 向 方向 向 向 向 方向 方向 向 方向 方向 向 向 向 方向 方向 向 向 向 向 向 向 向 向 向 向 方向 方向 向 向 方向 方向 向 向