The recently released Ego4D dataset and benchmark significantly scales and diversifies the first-person visual perception data. In Ego4D, the Visual Queries 2D Localization task aims to retrieve objects appeared in the past from the recording in the first-person view. This task requires a system to spatially and temporally localize the most recent appearance of a given object query, where query is registered by a single tight visual crop of the object in a different scene. Our study is based on the three-stage baseline introduced in the Episodic Memory benchmark. The baseline solves the problem by detection and tracking: detect the similar objects in all the frames, then run a tracker from the most confident detection result. In the VQ2D challenge, we identified two limitations of the current baseline. (1) The training configuration has redundant computation. Although the training set has millions of instances, most of them are repetitive and the number of unique object is only around 14.6k. The repeated gradient computation of the same object lead to an inefficient training; (2) The false positive rate is high on background frames. This is due to the distribution gap between training and evaluation. During training, the model is only able to see the clean, stable, and labeled frames, but the egocentric videos also have noisy, blurry, or unlabeled background frames. To this end, we developed a more efficient and effective solution. Concretely, we bring the training loop from ~15 days to less than 24 hours, and we achieve 0.17% spatial-temporal AP, which is 31% higher than the baseline. Our solution got the first ranking on the public leaderboard. Our code is publicly available at https://github.com/facebookresearch/vq2d_cvpr.
翻译:最近发布的 Ego4D 数据集和基准量显著提高, 并且使第一个人视觉感知数据多样化。 在 Ego4D 中, 视觉Queries 2D 本地化任务旨在从第一人视图的录音中检索过去出现的物体。 这项任务要求一个系统, 空间和时间地将一个特定对象查询的最新外观定位, 其查询由不同场景中该对象的单一紧凑视觉裁量量进行注册。 我们的研究以 Episodic Memory 基准中引入的三阶段基线为基础。 基准通过检测和跟踪解决问题: 在所有框架中探测相似的物体, 然后从最自信的检测结果中运行追踪器。 在 VQ2D 挑战中, 我们确定了当前基线的两个限制。 (1) 培训配置有多余的计算。 虽然训练组有数百万个实例, 其中多数是重复性的, 唯一对象的数量只有14.6k。 同一对象的反复梯度计算导致低效的训练; (2) 在背景框中, 错误的正率很高。 这要归功于最初的分发时间差于背景, 和最有信心的排序 。 在培训与最接近的路径上,, 我们只能看到一个最接近的 的 的 的 。 在训练和最接近的 的 的 的 的 的 方向上, 我们的, 我们的 的 的 的 的, 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 和 和 的 的 的 的 的 的 的 的 的 和