RGBT目标跟踪是利用两个模态之间的互补信息来更好地完成跟踪。现有的模型通常是设计一个比较复杂的融合模块来完成模态信息间的交互,但由于数据量的限制,过于复杂的单个融合模块并不能达到效果。
图1 现有方法(a,b)和我们的方法(c)对比
为了解决复杂RGBT数据的融合问题,我们提出了一种渐进式融合网络。首先,通过属性对融合过程进行解耦,能够使用较少模型参数实现多模态数据的有效融合,克服了对大规模训练数据的依赖。其次,我们为RGBT目标跟踪中挑战属性设计单独的融合分支。分支结构简单,因为它只需要学习特定挑战属性下的融合模式。我们只需要用带有特定属性标签的数据训练即可,这样就减少了训练所需要的的数据量。由于在跟踪过程中我们可能会遇到多种挑战,需要将属性分支的特征聚合起来形成更加鲁棒的特征表示。最后,我们使用了Transformer中的encoder来对聚合后的属性特征以及模态特定的特征进行特征自增强,使用decoder结构将模态特定特征和属性特征进行融合,这样就形成了一种渐进式的融合方式。
论文下载: https://github.com/yangmengmeng1997/APFNet/tree/main/Paper
代码开放: