视觉目标跟踪十年研究进展

2021 年 3 月 10 日 专知

摘要：视觉目标跟踪指在一个视频序列中,给定第一帧目标区域,在后续帧中自动匹配到该目标区域的任务。通常来说,由于场景遮挡、光照变化、物体本身形变等复杂因素,目标与场景的表观会发生剧烈的变化,这使得跟踪任务本身面临极大的挑战。在过去的十年中,随着深度学习在计算机视觉领域的广泛应用,目标跟踪领域也迅速发展,研究人员提出了一系列优秀算法。鉴于该领域处于快速发展的阶段,文中对视觉目标跟踪研究进行了综述,内容主要包括跟踪的基本框架改进、目标表示改进、空间上下文改进、时序上下文改进、数据集和评价指标改进等;另外,还综合分析了这些改进方法各自的优缺点,并提出了可能的未来的研究趋势。

http://www.jsjkx.com/CN/article/openArticlePDF.jsp?id=19761

目标跟踪是计算机视觉领域的一项经典研究课题,目的是在给定第一帧初始目标边界框的情况下,在后续视频序列中准确定位目标(见图１).随着高性能移动设备与高配置摄像机的爆炸式增长,以及新一代５G 网络的逐步应用,人们对自动视频分析的需求日益增长.自动视频分析中有３个关键步骤:自动检测感兴趣的运动物体、逐帧跟踪这些物体、通过分析物体的轨迹来进行行为识别.目标跟踪作为其中的一项重要技术,引起了相关学者的极大关注[１Ｇ２].然而,视觉目标跟踪是一项极具挑战性的任务,因为有一系列不同的问题需要在单个跟踪算法中解决.例如,跟踪算法能很好地处理光照变化,但是难以应对因相机角度变化而带来的物体表观的变化;跟踪算法擅长准确预测物体运动,但是难以跟踪快速弹跳的物体;跟踪算法能对外观做出详细假设,但是不能处理有关节的物体.

目标跟踪领域涌现出了大批经典算法[３Ｇ２１],具体如图２所示. 本文分４个阶段对目标跟踪的发展进行综述,即早期的目标跟踪探索阶段、稀疏表示阶段、相关滤波阶段和孪生网络阶段,主要介绍的跟踪算法包括 Histogram [３],Ensemble [４], IVT [５],MIL [６],L１Tracker [７],TLD [８],MOSSE [９],Struck [１０], ASLA [１１],CT [１２],CSK (KCF)[１３],CN [１４],STC [１５],CF２ [１６]ECO [１７],SiamFC [１８],SiamRPN [１９],ATOM [２０],SiamRCNN [２１]等. 本文详细梳理了最近几年目标跟踪领域的相关工作,并将其分为了五大类:数据集和评价标准的改进、目标跟踪基本框架改进、目标表示的改进、空间上下文方面的改进和时序上下文方面的改进.对上述５类工作分别进行介绍和分析之后得出本文的结论,并提出未来目标跟踪领域可能的发展趋势.