视觉目标跟踪指在一个视频序列中,给定第一帧目标区域,在后续帧中自动匹配到该目标区域的任务。通常来说,由于场景遮挡、光照变化、物体本身形变等复杂因素,目标与场景的表观会发生剧烈的变化,这使得跟踪任务本身面临极大的挑战。在过去的十年中,随着深度学习在计算机视觉领域的广泛应用,目标跟踪领域也迅速发展,研究人员提出了一系列优秀算法。鉴于该领域处于快速发展的阶段,文中对视觉目标跟踪研究进行了综述,内容主要包括跟踪的基本框架改进、目标表示改进、空间上下文改进、时序上下文改进、数据集和评价指标改进等;另外,还综合分析了这些改进方法各自的优缺点,并提出了可能的未来的研究趋势。
http://www.jsjkx.com/CN/article/openArticlePDF.jsp?id=19761
目标跟踪是计算机视觉领域的一项经典研究课题,目的 是在给定第一帧初始目标边界框的情况下,在后续视频序列 中准确定位目标(见图1).随着高性能移动设备与高配置摄 像机的爆炸式增长,以及新一代5G 网络的逐步应用,人们对 自动视频分析的需求日益增长.自动视频分析中有3个关键 步骤:自动检测感兴趣的运动物体、逐帧跟踪这些物体、通过 分析物体的轨迹来进行行为识别.目标跟踪作为其中的一项 重要技术,引起了相关学者的极大关注[1G2].然而,视觉目标 跟踪是一项极具挑战性的任务,因为有一系列不同的问题需 要在单个跟踪算法中解决.例如,跟踪算法能很好地处理光 照变化,但是难以应对因相机角度变化而带来的物体表观的变化;跟踪算法擅长准确预测物体运动,但是难以跟踪快速弹 跳的物体;跟踪算法能对外观做出详细假设,但是不能处理有 关节的物体.
目标跟踪领域涌现出了大批经典算法[3G21],具体如图2所示. 本文分4个阶段对目标跟踪的发展进行综述,即早期的目标 跟踪探索阶段、稀疏表示阶段、相关滤波阶段和孪生网络阶 段,主 要 介 绍 的 跟 踪 算 法 包 括 Histogram [3],Ensemble [4], IVT [5],MIL [6],L1Tracker [7],TLD [8],MOSSE [9],Struck [10], ASLA [11],CT [12],CSK (KCF)[13],CN [14],STC [15],CF2 [16]ECO [17],SiamFC [18],SiamRPN [19],ATOM [20],SiamRCNN [21]等. 本文详细梳理了最近几年目标跟踪领域的相关工作,并 将其分为了五大类:数据集和评价标准的改进、目标跟踪基本 框架改进、目标表示的改进、空间上下文方面的改进和时序上 下文方面的改进.对上述5类工作分别进行介绍和分析之后 得出本文的结论,并提出未来目标跟踪领域可能的发展趋势.