The encoding of the target in object tracking moves from the coarse bounding-box to fine-grained segmentation map recently. Revisiting de facto real-time approaches that are capable of predicting mask during tracking, we observed that they usually fork a light branch from the backbone network for segmentation. Although efficient, directly fusing backbone features without considering the negative influence of background clutter tends to introduce false-negative predictions, lagging the segmentation accuracy. To mitigate this problem, we propose an attention retrieval network (ARN) to perform soft spatial constraints on backbone features. We first build a look-up-table (LUT) with the ground-truth mask in the starting frame, and then retrieves the LUT to obtain an attention map for spatial constraints. Moreover, we introduce a multi-resolution multi-stage segmentation network (MMS) to further weaken the influence of background clutter by reusing the predicted mask to filter backbone features. Our approach set a new state-of-the-art on recent pixel-wise object tracking benchmark VOT2020 while running at 40 fps. Notably, the proposed model surpasses SiamMask by 11.7/4.2/5.5 points on VOT2020, DAVIS2016, and DAVIS2017, respectively. We will release our code at https://github.com/researchmm/TracKit.


翻译:目标跟踪目标的编码从粗窄的捆绑框到细微的断段图,最近才开始。 重新审视事实上的实时方法,在跟踪过程中能够预测遮罩,我们观察到它们通常会从主干网中叉开一个光分支,以进行截断。 虽然它们效率高,但直接将主干特征从主干网截断,而不考虑背景块的负面影响,往往引入虚假的负面预测,使分割准确性滞后。为了缓解这一问题,我们建议关注检索网络(ARN)对主干网功能实施软的空间限制。我们首先在初始框架中用地面真相遮罩建立搜索上(LUT),然后检索LUT,以获得空间限制的注意地图。此外,我们引入了一个多分辨率多阶段断层断层网络(MMS),通过将预测的遮罩重新用于过滤主干网特征,进一步削弱背景的影响力。 我们的方法在跟踪VOT2020/com基准时设定了一个新的状态,同时运行40 fps。 特别是, 拟议的模型将Simus 5/DAVAV17 和DA5x 分别发布我们的数据库。

1
下载
关闭预览

相关内容

【CVPR2020-谷歌】多目标(车辆)跟踪与检测框架 RetinaTrack
专知会员服务
44+阅读 · 2020年4月10日
专知会员服务
60+阅读 · 2020年3月19日
专知会员服务
109+阅读 · 2020年3月12日
近期必读的9篇 CVPR 2019【视觉目标跟踪】相关论文和代码
《DeepGCNs: Making GCNs Go as Deep as CNNs》
专知会员服务
30+阅读 · 2019年10月17日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
【学界】CVPR 2019 论文大盘点—目标检测篇
GAN生成式对抗网络
9+阅读 · 2019年7月1日
已删除
将门创投
8+阅读 · 2019年1月4日
【跟踪Tracking】15篇论文+代码 | 中秋快乐~
专知
18+阅读 · 2018年9月24日
IEEE2018|An Accurate and Real-time 3D Tracking System for Robots
视频超分辨 Detail-revealing Deep Video Super-resolution 论文笔记
统计学习与视觉计算组
17+阅读 · 2018年3月16日
Arxiv
11+阅读 · 2019年4月15日
Arxiv
5+阅读 · 2018年5月16日
Arxiv
3+阅读 · 2018年4月9日
VIP会员
相关VIP内容
【CVPR2020-谷歌】多目标(车辆)跟踪与检测框架 RetinaTrack
专知会员服务
44+阅读 · 2020年4月10日
专知会员服务
60+阅读 · 2020年3月19日
专知会员服务
109+阅读 · 2020年3月12日
近期必读的9篇 CVPR 2019【视觉目标跟踪】相关论文和代码
《DeepGCNs: Making GCNs Go as Deep as CNNs》
专知会员服务
30+阅读 · 2019年10月17日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
Top
微信扫码咨询专知VIP会员