相关运算在视觉目标跟踪领域中发挥了重要作用,相关运算通过简单的相似性比较,来完成模板特征和搜索区域特征的交互,输出相似度图。然而,相关运算本身是一个局部的线性匹配,导致了语义信息的丢失和全局信息的缺乏。针对相关运算的局限性,本工作提出了基于Transformer的特征融合模型,通过建立非线性语义融合和挖掘远距离特征关联有效聚合目标和搜索区域的全局信息,显著提升了算法的精准度。TransT在多个跟踪数据集上达到目前最先进的性能,速度可达50 fps。
https://www.zhuanzhi.ai/paper/7dc7d2e7e635f18776db3f04e7c58bbb