给定一个需要检索的行人和来自于不同模态的行人数据库,可见光-红外跨模态行人重识别的目的是从数据库中检索出该行人在不同模态下和不同摄像机下的该行人图像。跨模态行人重识别技术由于在安防领域中的重要作用,已成为学术界和行业界最受欢迎的研究方向之一。通常来讲,现有的跨模态行人重识别方法设计网络模型将可见光和红外图像映射到一个公共的嵌入空间中,这样,跨模态检索任务就可以归结为在我们所熟悉的欧式空间中的行人重识别检索任务。然而,由于可见光和红外图像之间的模态差异是高度非线性的,因此为跨模态行人重识别构建一个公共的特征空间是一个非常有挑战性的问题。本文从以下两个方面着手解决这个问题:(a):本文引入了一个非线性网络来缓解可见光和红外模态图像的非线性关系;(b):本文将可见光和红外图像转换成一个统一的中间模态图像空间,以减少它们之间的模态差异。
2、方法概述
图2为本文所提MMN算法的框架图。MMN的输入是成对的可见光-近红外图像。可见光-近红外图像对被输入所提出的MMG模块,以生成中间模态图像。生成中间模态图像与原始可见光-近红外图像对一起被输入到双流ResNet50网络中,以提取模态不变特征。其中,双流ResNet50网络中的第一个卷积块不同,用于学习特定模态图像的低水平特征表示,而中间和深层卷积块共享,用以学习模态共享的中间和高维特征表示。此外,为了拉近所得到的的中间模态图像之间的距离,本文提出了一个模态差异损失进一步的对齐了中间模态图像的数据分布。
3、实验结果
如表1所示,与现有方法相比,本文所提出的MMN在RegDB与SYSU-MM01两个数据集上,均达到了最高的结果,表明了本文所提方法的有效性。
4、可视化结果
为了验证本文所提方法的有效性,这里可视化了所生成的中间模态图像,如图3所示,图中四行从上到下分别表示原始可见光图像、原始近红外图像、由可见光图像所生成的中间模态图像与由近红外图像所生成的中间模态图像。可以看到,所生成的中间模态图像的模态差异得到了有效的降低,因此也表明了本文所提方法的有效性。
作者:张玉康,严严,卢杨,王菡子*
单位:厦门大学,福建省智慧城市感知与计算重点实验室
邮箱:
论文: