基于深度学习的多目标跟踪:从UMA Tracker出发谈谈SOT类MOT算法

2020 年 5 月 11 日 PaperWeekly



©PaperWeekly 原创 · 作者|黄飘

学校|华中科技大学硕士生

研究方向|多目标跟踪


之前的文章中我们介绍了联合检测和跟踪的多目标跟踪框架,这类框架最大优势在于可以利用优秀的检测器平衡不同观测输入的质量。随之又介绍了端到端的数据关联类算法,这类算法的优势在于可以利用 MOT 数据信息缓解人工提取特征和计算特征距离的弊端。这次我们要介绍的是基于单目标跟踪(SOT)算法的 MOT 算法,这类算法的优缺点可以看我下面的介绍。


前情回顾(FAMNet、DMAN)

1.1 DMAN


论文标题:Online Multi-Object Tracking with Dual Matching Attention Network

论文来源:ECCV 2018

论文链接:https://arxiv.org/abs/1902.00749

代码链接:https://github.com/jizhu1023/DMAN_MOT


DMAN 算法我不小心放在了数据关联部分,这次我们简单回顾一下(具体可见上次的文章):

我觉得 DMAN 算法的主要特点在于:
  • 利用 Bi-LSTM 网络实现了观测框与目标轨迹历史特征序列的端到端特征提取与比对;
  • 将基于改进版 ECO 的 SOT 模块嵌入了网络中,其主要利用的是响应图信息,而响应图中包含有目标的定位和分类信息;
  • 在数据关联部分,我们可以注意到存在两个识别部分,作者称之为时空注意力,其中时间注意力就是第一点中的 verfication 任务,而空间注意力就对应图中的identification任务 ,这里利用 SOT 输出的响应图作为注意力 mask,分别基于特征预测了目标身份信息。

对于第一点,其实通过图就可以明白,是通过对于历史轨迹特征的质量进行自适应评估,并对特征自动融合。而对于第二点,关于 SOT 如何融入网络,可以自行搜索 CFNet 等 SOT 网络。而对于 ECO 算法,作者考虑到相似表观目标中容易出现的多峰问题进行了改进:

即将处于目标附近的 hard samples 的惩罚权重变大:


1.2 FAMNet


论文标题: FAMNet: Joint Learning of Feature, Affinity and Multi-dimensional Assignment for Online Multiple Object Tracking
论文来源: ICCV 2019
论文链接: https://arxiv.org/abs/1904.04989


FAMNet 的结构我们也介绍了,这里也总结他的特征:
  • 对于相邻帧中的每个目标,利用 Siamese 网络进行单目标跟踪,由此隐式获取到目标的表观和位置信息,并基于响应图进行特征比对;
  • 利用其提出的 R1TA Power Iteration Layer 降低连续多帧数据关联的复杂度,并实现连续多帧的跟踪训练。



STAM


论文标题:Online Multi-Object Tracking Using CNN-based Single Object Tracker with Spatial-Temporal Attention Mechanism

论文来源:ICCV 2017

论文链接:https://arxiv.org/abs/1708.02843


STAM 算得上是一篇经典的多目标跟踪算法,而且仔细阅读之后还会发现一个亮点。其大致流程如下:

可以简单看出这里面涵盖有运动模型、目标特征提取、目标空间注意力,以及目标轨迹时间注意力等等模块。

看完整个流程我惊了,尤其是 ROI Pooled Features 那一部分,比 Tracktor++ 提出得还早。通过将不同目标映射到特征图上进行进一步特征提取和位置回归,只不过作者当时并没有从检测入手,所以效果不突出。

其中运动模型其实就是一个在线更新的带动量的匀速模型:

对于空间注意力,作者主要考虑了遮挡问题,通过训练可视度响应图,由此作为特征的 mask,突出前景目标特征:

对于时间注意力,则是轨迹层面的质量考虑:
其通过 triplet loss 训练,既包含当前帧内的 neg 和 pos,还包含历史帧的:




其中注意力计算如下:



对于具体的实验细节,推荐大家去看作者的博士论文《基于深度学习的视频多目标跟踪算法研究》。


LSST


论文标题: Multi-Object Tracking with Multiple Cues and Switcher-Aware Classification
论文链接: https://arxiv.org/abs/1901.06129

LSST 中作者的出发点也是针对遮挡问题:
由于遮挡导致轨迹特征出现残缺,甚至身份漂移。而作者的基础跟踪器则是 SiamRPN,因为快而准。。。



最左边就是就 RPN 框架的 SiamRPN 框架,作者称之为短期线索,这部分的质量是通过下面的公式计算的:

而对于长期线索,则自然是 ReID 所提取的表观信息了。作者通过 ResNet18 设计了一个质量评估网络,从而在目标轨迹中选择 K 个最好质量的特征进行比对,当然每个特征间保留了间距:
这样就得到了 K 组相似度,基于以上的短期和长期线索,作者利用 regularized Newton boosting decision tree 训练了一个分类器,由此进行数据关联。



KCF

论文标题: Online Multi-Object Tracking with Instance-Aware Tracker and Dynamic Model Refreshment
论文来源: WACV 2019
论文链接: https://arxiv.org/abs/1902.08231

此 KCF 并非单目标跟踪中的核相关滤波算法,只是名字巧合罢了(论文里面没说简称,但是 MOT 官网写的 KCF)。我们可以看到这篇论文的流程十分复杂:



整体来看包含了:

  • 综合前/背景相应和SOT设计Instance-aware SOT跟踪器
    这两个响应图是直接基于岭回归算法叠加的:
    然后利用 KCF 的求解方式对联合模型进行求解。
  • 基于检测的校正,即对 SOT 结果和 Detection 信息利用 multicut 进行数据关联,对于这类图模型的构建可以参照我之前写的博客 [7]。有了目标实际上就有了图节点,那么 SOT 模型就是为边权而服务的:

    其中 X 表示目标轨迹,O 表示的是预测的目标位置和观测位置的集合,g 就是上面的联合损失函数。 即如果是相邻帧之间的边权,则用 SOT 中的联合损失函数值。 如果是上一帧中目标间的边,则设置一个固定值。 如果是当前帧节点间的边,则直接使用 IOU 代替。
  • 模型更新

    作者考虑到场景中可能存在的噪声信息,导致 SOT 跟踪结果不准,所以通过一个 CNN 网络判断当前 SOT 结果是否需要利用观测信息进行更新,如果需要,则采用观测框。
    有意思的是作者采用了强化学习的策略在线训练分类器。当观测框比预测框更精准,但是没有更新,那么观测框的特征和预测框的特征会被当作 positive samples。当预测框比观测框更精准,但是却更新了,那么就视为 negtive samples,样本与部分训练集合并组成在线训练集进行更新。特征是通过 ROI Pooling 进行提取的。
    当然,如果当前更新的权重并不适用于接下来的跟踪,权重还会恢复如初。
  • 目标的管理

    为了保证目标从遮挡状态恢复,作者做了一个强假设,即如果目标因遮挡而丢失,那么在出现的那一帧的数据关联中也没有与之匹配的目标。因此就可以跨帧匹配:

    利用时间距离、位置形状、IOU、直方图等信息作为特征,通过 SVM 进行分类判别。

效果如下:


UMA


论文标题: A Unified Object Motion and Affinity Model for Online Multi-Object Tracking
论文来源: CVPR 2020
论文链接: https://arxiv.org/abs/2003.11291
代码链接: https://github.com/yinjunbo/UMA-MOT

这篇文章实际上跟前面我所介绍的 DMAN 算法很像,都是想利用 SOT 实现表观特征和运动信息的获取,进而实现在线的匹配关联:
整体流程也很相似,那么 UMA Tracker 所基于的单目标跟踪器是 SiamFC:

其中的特征提取都是采用的 AlexNet,从图中可以看到:

  • 对于正样本对则采用 SOT 进行跟踪比对,从而得到 SOT 部分的损失。

  • 对于每个目标样本,还存在一个 embedding 模块,提取了 256 维的特征信息,进而进行 iidentification 的分类任务;

  • 利用 SENet 的机制,实现 verification 任务。



可以看到,这个整体就是基于 SENet 的变种,结合 256 个通道注意力而设计的,可以看到训练得到的特征图可视化效果还不错:

其中第 2 行是跟踪任务中的响应图(网络第一行分支),第 3 行是相似度度量任务中的响应图(网络第三行分支),所以 SOT 的任务跟偏向于定位和周围环境信息的提取,而 Affinity 部分更偏向于前景目标的部位。

对于跟踪流程,作者同样考虑了遮挡情况:

这里作者直接通过 affinity 相似度和 IOU 的变化情况估计了遮挡情况。另外,为了保证表观特征部分的信息更准确,作者利用 ROI Align 模块,将特征图上 SOT 预测出来的位置区域的目标特征单独获取出来作为表观特征的输入。

最后在数据关联部分,作者同样考虑了跟踪轨迹的历史特征,不过使用方式比较简单:

通过均匀采样,计算 K 组特征相似度,然后取平均作为最终的相似度。



总结

在 MOT 场景中,由于 Siamese 结构的存在,使得 SOT 任务本身就自带了定位和识别等信息,所以利用 SOT 替代运动模型和表观模型的算法相继涌现。另外,SOT 本身对于观测缺乏的问题有一定的鲁棒性,可以通过区域搜索得到暂时的目标定位信息。

如果 SOT 本身的定位能力强,比如 SiamRPN 这种,甚至都相当于额外做了检测,所以基于 SOT 的算法理论上是可以跟基于检测的框架一较高下的。但问题在于,基于 SOT 的 MOT 目前都是针对每个目标进行一次跟踪,效率方面问题太大了,希望有后续研究可以解决这一点。

参考文献

[1] Zhu J, Yang H, Liu N, et al. Online multi-object tracking with dual matching attention networks[C]. in: Proceedings of the European Conference on Computer Vision (ECCV). 2018. 366-382.

[2] Chu P, Ling H. Famnet: Joint learning of feature, affinity and multi-dimensional assignment for online multiple object tracking[C]. in: Proceedings of the IEEE International Conference on Computer Vision. 2019. 6172-6181.

[3] Chu Q, Ouyang W, Li H, et al. Online multi-object tracking using CNN-based single object tracker with spatial-temporal attention mechanism[C]. in: Proceedings of the IEEE International Conference on Computer Vision. 2017. 4836-4845.

[4] Feng W, Hu Z, Wu W, et al. Multi-object tracking with multiple cues and switcher-aware classification[J]. arXiv preprint arXiv:1901.06129, 2019.

[5] Chu P, Fan H, Tan C C, et al. Online multi-object tracking with instance-aware tracker and dynamic model refreshment[C]. in: 2019 IEEE Winter Conference on Applications of Computer Vision (WACV). IEEE, 2019. 161-170.

[6] Yin J, Wang W, Meng Q, et al. A Unified Object Motion and Affinity Model for Online Multi-Object Tracking[J]. arXiv preprint arXiv:2003.11291, 2020.

[7] https://zhuanlan.zhihu.com/p/111397247




点击以下标题查看更多往期内容: 




#投 稿 通 道#

 让你的论文被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学习心得技术干货。我们的目的只有一个,让知识真正流动起来。


📝 来稿标准:

• 稿件确系个人原创作品,来稿需注明作者个人信息(姓名+学校/工作单位+学历/职位+研究方向) 

• 如果文章并非首发,请在投稿时提醒并附上所有已发布链接 

• PaperWeekly 默认每篇文章都是首发,均会添加“原创”标志


📬 投稿邮箱:

• 投稿邮箱:hr@paperweekly.site 

• 所有文章配图,请单独在附件中发送 

• 请留下即时联系方式(微信或手机),以便我们在编辑发布时和作者沟通



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧



关于PaperWeekly


PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在公众号后台点击「交流群」,小助手将把你带入 PaperWeekly 的交流群里。



登录查看更多
1

相关内容

标跟踪是指:给出目标在跟踪视频第一帧中的初始状态(如位置,尺寸),自动估计目标物体在后续帧中的状态。 目标跟踪分为单目标跟踪和多目标跟踪。 人眼可以比较轻松的在一段时间内跟住某个特定目标。但是对机器而言,这一任务并不简单,尤其是跟踪过程中会出现目标发生剧烈形变、被其他目标遮挡或出现相似物体干扰等等各种复杂的情况。过去几十年以来,目标跟踪的研究取得了长足的发展,尤其是各种机器学习算法被引入以来,目标跟踪算法呈现百花齐放的态势。2013年以来,深度学习方法开始在目标跟踪领域展露头脚,并逐渐在性能上超越传统方法,取得巨大的突破。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
【CMU】基于图神经网络的联合检测与多目标跟踪
专知会员服务
56+阅读 · 2020年6月24日
【人大】图实现算法综述与评测分析
专知会员服务
37+阅读 · 2020年4月28日
专知会员服务
160+阅读 · 2020年4月21日
【CVPR2020-谷歌】多目标(车辆)跟踪与检测框架 RetinaTrack
专知会员服务
44+阅读 · 2020年4月10日
深度学习视频中多目标跟踪:论文综述
专知会员服务
92+阅读 · 2019年10月13日
大盘点 | 性能最强的目标检测算法
新智元
13+阅读 · 2019年7月9日
DaSiamRPN的升级版,视觉目标跟踪之SiamRPN++
极市平台
76+阅读 · 2019年2月20日
基于视频的目标检测的发展【附PPT与视频资料】
人工智能前沿讲习班
19+阅读 · 2018年12月14日
目标跟踪算法分类
大数据技术
13+阅读 · 2018年9月17日
干货 | 基于深度学习的目标检测算法综述
AI科技评论
18+阅读 · 2018年9月1日
干货 | 基于深度学习的目标检测算法综述(二)
AI科技评论
21+阅读 · 2018年8月20日
深度学习的快速目标跟踪
AI研习社
13+阅读 · 2018年1月8日
论文 | 基于RNN的在线多目标跟踪
七月在线实验室
31+阅读 · 2017年12月27日
Deep Learning in Video Multi-Object Tracking: A Survey
Arxiv
57+阅读 · 2019年7月31日
Arxiv
5+阅读 · 2018年4月30日
Arxiv
9+阅读 · 2018年3月10日
VIP会员
相关资讯
大盘点 | 性能最强的目标检测算法
新智元
13+阅读 · 2019年7月9日
DaSiamRPN的升级版,视觉目标跟踪之SiamRPN++
极市平台
76+阅读 · 2019年2月20日
基于视频的目标检测的发展【附PPT与视频资料】
人工智能前沿讲习班
19+阅读 · 2018年12月14日
目标跟踪算法分类
大数据技术
13+阅读 · 2018年9月17日
干货 | 基于深度学习的目标检测算法综述
AI科技评论
18+阅读 · 2018年9月1日
干货 | 基于深度学习的目标检测算法综述(二)
AI科技评论
21+阅读 · 2018年8月20日
深度学习的快速目标跟踪
AI研习社
13+阅读 · 2018年1月8日
论文 | 基于RNN的在线多目标跟踪
七月在线实验室
31+阅读 · 2017年12月27日
Top
微信扫码咨询专知VIP会员