Text-to-image person re-identification (ReID) aims to search for images containing a person of interest using textual descriptions. However, due to the significant modality gap and the large intra-class variance in textual descriptions, text-to-image ReID remains a challenging problem. Accordingly, in this paper, we propose a Semantically Self-Aligned Network (SSAN) to handle the above problems. First, we propose a novel method that automatically extracts semantically aligned part-level features from the two modalities. Second, we design a multi-view non-local network that captures the relationships between body parts, thereby establishing better correspondences between body parts and noun phrases. Third, we introduce a Compound Ranking (CR) loss that makes use of textual descriptions for other images of the same identity to provide extra supervision, thereby effectively reducing the intra-class variance in textual features. Finally, to expedite future research in text-to-image ReID, we build a new database named ICFG-PEDES. Extensive experiments demonstrate that SSAN outperforms state-of-the-art approaches by significant margins. Both the new ICFG-PEDES database and the SSAN code are available at https://github.com/zifyloo/SSAN.


翻译:文本到图像人重新身份识别(ReID)的目的是利用文本描述来搜索含有受关注人的图像,然而,由于模式差异很大,而且文本到图像的描述存在巨大的阶级内部差异,文本到图像ReID仍然是一个具有挑战性的问题。因此,在本文件中,我们提议建立一个模拟自成一体的网络,以处理上述问题。首先,我们提出一种新颖的方法,从两种模式中自动提取语义一致的部位特征。第二,我们设计了一个多视非本地网络,捕捉身体部分之间的关系,从而在身体部分和名词词之间建立更好的对应。第三,我们引入一种复合排层(CR)损失,利用同一身份的其他图像的文字描述来提供额外的监督,从而有效减少语言特征中的阶级内部差异。最后,为了加快对文本到图像ReID的今后研究,我们建立了一个名为ICFG-PEDES的新数据库。广泛的实验表明,SSAN超越状态-艺术部分和名词词词词词词词词词组。我们引入了一个复合排行式分级(CRR)损失,而新的ICFGGG/MESAG/MEPEDEDER系统数据库都是可用的重要边距。

0
下载
关闭预览

相关内容

Networking:IFIP International Conferences on Networking。 Explanation:国际网络会议。 Publisher:IFIP。 SIT: http://dblp.uni-trier.de/db/conf/networking/index.html
【KDD2021】图神经网络,NUS- Xavier Bresson教授
专知会员服务
62+阅读 · 2021年8月20日
零样本文本分类,Zero-Shot Learning for Text Classification
专知会员服务
95+阅读 · 2020年5月31日
Python分布式计算,171页pdf,Distributed Computing with Python
专知会员服务
107+阅读 · 2020年5月3日
专知会员服务
60+阅读 · 2020年3月19日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
58+阅读 · 2019年10月17日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
LibRec 精选:AutoML for Contextual Bandits
LibRec智能推荐
7+阅读 · 2019年9月19日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
已删除
将门创投
5+阅读 · 2019年4月29日
PTGAN for Person Re-Identification
统计学习与视觉计算组
4+阅读 · 2018年9月10日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Recurrent Fusion Network for Image Captioning
Arxiv
3+阅读 · 2018年7月31日
VIP会员
相关资讯
LibRec 精选:AutoML for Contextual Bandits
LibRec智能推荐
7+阅读 · 2019年9月19日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
已删除
将门创投
5+阅读 · 2019年4月29日
PTGAN for Person Re-Identification
统计学习与视觉计算组
4+阅读 · 2018年9月10日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员