视觉跟踪是计算机视觉领域的一个重要问题,在视觉监控、智能交通、机器人等视觉系统中发挥着重要作用。然而,现有的跟踪方法往往基于 RGB 图像序列,这些序列对亮度的变化非常敏感,因此一些目标在弱光条件下是无效的。在这种情况下,现有方法的跟踪性能可能会显著降低。
https://www.zhuanzhi.ai/paper/c6cc2d20fe3e758d83a8decbbc882956
引入诸如深度和红外数据等其他方式是处理单个源成像局限性的有效方法,但多模态成像平台通常需要精心设计,目前无法应用于许多现实应用中。近红外(NIR)成像是许多监控摄像机的重要组成部分,其成像可以根据光照强度在 RGB 和 NIR 之间切换。这两种方式是异质的,具有不同的视觉特性,因此给视觉跟踪带来了巨大的挑战。然而,现有的研究工作尚未对这一具有挑战性的问题进行研究。那么如何设计一种合适的算法,以缓解RGB和NIR模式之间的外观差距,并灵活地嵌入到不同的跟踪框架中,实现鲁棒的跨模式目标跟踪?如何创建视频基准数据集以促进跨模态目标跟踪的研究和发展?
在这项工作中,我们解决了跨模态目标跟踪课题,并提出了一个新的视频数据集CMOTB,包括654个跨模态图像序列,总帧数超过486k,平均视频长度超过735帧。为了促进跨模态目标跟踪的研究和发展,我们提出了一个新的即插即用模块。该模块学习感知模态的目标表示,以减少在跟踪过程中 RGB 和 NIR 不同模态之间的外观差距,可以灵活地嵌入不同的跟踪框架中。在我们提出的数据集上进行了广泛的实验,证明了所提出的模块对于两个代表性的跟踪框架,即 dimp-50和 RT-MDNet 上的17种最先进的跟踪方法的有效性。