Depth (D) indicates occlusion and is less sensitive to illumination changes, which make depth attractive modality for Visual Object Tracking (VOT). Depth is used in RGBD object tracking where the best trackers are deep RGB trackers with additional heuristic using depth maps. There are two potential reasons for the heuristics: 1) the lack of large RGBD tracking datasets to train deep RGBD trackers and 2) the long-term evaluation protocol of VOT RGBD that benefits from heuristics such as depth-based occlusion detection. In this work, we study how far D-only tracking can go if trained with large amounts of depth data. To compensate the lack of depth data, we generate depth maps for tracking. We train a "Depth-DiMP" from the scratch with the generated data and fine-tune it with the available small RGBD tracking datasets. The depth-only DiMP achieves good accuracy in depth-only tracking and combined with the original RGB DiMP the end-to-end trained RGBD-DiMP outperforms the recent VOT 2020 RGBD winners.
翻译:深度 (D) 表示封闭性, 且对照明变化不那么敏感, 这使视觉物体跟踪( VOT) 的深度模式具有吸引力。 RGBD 对象跟踪使用深度深度。 在RGBD 对象跟踪中, 最佳跟踪器是深度的 RGB 跟踪器, 使用深度地图进行额外的超光度。 超光速的有两个潜在原因:(1) 缺乏大型 RGBD 跟踪数据集来培训深度的 RGBD 跟踪器;(2) VOT RGBD 的长期评估协议, 利用深度测深探测等超光速方法。 在这项工作中, 我们研究如果用大量深度数据进行训练, 只能进行D级跟踪。 为了弥补深度数据的缺乏, 我们制作深度地图用于跟踪。 我们用生成的数据从头到脚来训练“ Depti- Dimp ”, 用现有的小RGBD 跟踪数据集进行微调。 仅深度的DMP 在深度跟踪和原始的 RGB DMP 培训的终端到终端 RGBD- DiMP 超越了最近的 VO 2020 RGBD 赢家 。