计算机视觉模型已经证明自己在识别和检测多种真实世界的物体方面具有极高的能力:汽车、人、宠物等。然而,表现最佳的类别在当前的大规模数据集中有大量的示例,而对于模糊或小物体的识别仍然具有挑战性。简而言之,计算机视觉感知的能力仍然远远不及其黄金标准——人类的视觉感知。人类能够快速学习新的类别,无论数据量多少,并且能够对远处、模糊或小物体进行分类。本论文的目标是通过两个主要部分,缩小人类视觉和计算机视觉之间的差距。
在本论文的第一部分,我们专注于通过提高计算机视觉模型在具有真实世界数据分布的数据集上的性能,以缩小人类和计算机视觉之间的差距。由于真实世界的物体分布通常是不平衡的,其中一些类别经常出现,而另一些类别很少出现,模型在表现不足的类别上往往难以表现良好。相比之下,人类在学习新物体方面表现出色,即使这些物体很少出现。因此,我们的目标是改进标准视觉任务在长尾分布数据集上的表现,这些数据集类似于真实世界的分布。我们的第一种方法从视觉分类任务开始,我们的目标是提高在稀有类别上的性能。在这项工作中,我们通过利用为常见类别学习的表示和分类器,为稀有类别创建新的更强的分类器。我们的简单方法可以应用在任何现有的分类器集合之上,因此展示了学习更好的分类器并不需要复杂或大规模的方法。我们的第二种方法涉及视觉检测和分割,其中额外的定位任务使得训练更好的稀有检测器变得困难。我们对在长尾数据集中广泛用于检测的基本重采样方法进行了深入研究。值得注意的是,我们展示了检测中的基本重采样策略不仅可以通过重采样整个图像来改进,还可以仅通过重采样物体来改进。
成功的真实世界模型在很大程度上依赖于训练和测试数据的质量。在本论文的第二部分,我们通过开发一个大规模的神经成像数据集,并识别和探索视觉数据集整理面临的重大挑战,以缩小人类和计算机视觉之间的差距。首先,我们构建了第一个大规模的视觉功能磁共振成像(fMRI)数据集,BOLD5000。为了缩小计算机视觉和人类视觉之间的差距,我们设计了一个数据集,其中包含从计算机视觉基准数据集中获取的5000张图像。通过这项工作,我们识别出数据集整理中一个关键且耗时的组成部分:为注释员和参与者创建标签说明。一个典型的视觉数据集的标签说明将包括详细的定义和提供给注释员的视觉类别示例。这些标签说明通过文本描述和视觉示例提供全面且高质量的类别定义。不幸的是,当前的数据集通常不发布他们的标签说明(LIs)。我们引入了一个新的任务,标签说明生成,以从现有数据集中反向工程LIs。我们的方法利用现有的大型视觉和语言模型(VLMs)来生成提供视觉有意义的示例的LIs,并在图像检索方面显著超越所有基线。