今天的计算机视觉擅长于识别现实世界的限定部分:我们的模型似乎能在基准数据集中准确地检测出像猫、汽车或椅子这样的物体。然而,部署模型要求它们在开放世界中工作,开放世界包括各种设置中的任意对象。目前的方法在两个方面都有困难:他们只认识到少数的类别,并且在不同的训练分布的环境中切换。解决这些挑战的模型可以作为下游应用的基本构建模块,包括识别操作、操作对象和绕过障碍进行导航。本论文提出了我们在建立鲁棒检测和跟踪目标模型的工作,特别是有很少或甚至没有训练的样例。首先,我们将探索传统模型如何泛化到现实世界,传统模型只识别一小部分对象类。我们表明,目前的方法是极其敏感的:即使是输入图像或测试分布的细微变化,都可能导致精度下降。我们的系统评估显示,模型——即使是那些训练很好的对对抗或合成损坏具有鲁棒性的模型——经常正确地分类视频的一帧,但在相邻的感知相似的帧上却失败了。类似的现象甚至适用于由数据集之间的自然变化引起的微小分布变化。最后,我们提出了一种解决对象外观泛化的极端形式的方法:检测完全遮挡的对象。接下来,我们探索归纳到大的或无限的词汇,其中包含罕见的和从未见过的类。由于当前的数据集很大程度上局限于一个小的、封闭的对象集合,我们首先提出了一个大型词汇基准来衡量检测和跟踪的进展。我们展示了当前的评估不足以满足大型词汇量基准测试,并提供了适当评估此设置中的进度的替代指标。最后,我们提出了利用封闭世界识别的进展来为任何对象建立精确、通用的检测器和跟踪器的方法。
https://www.ri.cmu.edu/publications/open-world-object-detection-and-tracking/