In this paper, we consider a highly general image recognition setting wherein, given a labelled and unlabelled set of images, the task is to categorize all images in the unlabelled set. Here, the unlabelled images may come from labelled classes or from novel ones. Existing recognition methods are not able to deal with this setting, because they make several restrictive assumptions, such as the unlabelled instances only coming from known - or unknown - classes and the number of unknown classes being known a-priori. We address the more unconstrained setting, naming it 'Generalized Category Discovery', and challenge all these assumptions. We first establish strong baselines by taking state-of-the-art algorithms from novel category discovery and adapting them for this task. Next, we propose the use of vision transformers with contrastive representation learning for this open world setting. We then introduce a simple yet effective semi-supervised $k$-means method to cluster the unlabelled data into seen and unseen classes automatically, substantially outperforming the baselines. Finally, we also propose a new approach to estimate the number of classes in the unlabelled data. We thoroughly evaluate our approach on public datasets for generic object classification including CIFAR10, CIFAR100 and ImageNet-100, and for fine-grained visual recognition including CUB, Stanford Cars and Herbarium19, benchmarking on this new setting to foster future research.
翻译:在本文中, 我们考虑一个高度通用的图像识别设置, 根据一组贴标签和未贴标签的图像, 任务在于将所有图像分类在未贴标签的数据集中。 在这里, 未贴标签的图像可能来自标签的类别或新颖的类别。 现有的识别方法无法处理这一设置, 因为它们做了一些限制性的假设, 例如, 未贴标签的事例仅来自已知或未知的类别, 以及已知的未知类别数量。 我们处理较不受限制的设置, 命名为“ 通用分类发现”, 并对所有这些假设提出挑战。 我们首先从新发现的类别中采用最先进的算法来建立强有力的基线。 接下来, 我们建议使用具有对比性代表性的视觉变异器来为这个开放的世界背景进行学习。 我们然后引入一个简单而有效的半监督的半美元手段, 将未贴标签的数据自动组合到看不见的类别中, 大大超过基准值。 最后, 我们还提出一种新的方法, 来估算未贴标签的类别中的类别数量, 包括未贴标签的C- 100 的 CFAR 和 C- IRC 未来 的常规数据分类, 我们彻底评估了我们关于 CIRARC 和 CIRC 和 CIRC 的视觉 的 的 的 的 的 的常规 的 的 的 CIR 和 CIR 和 CIR 的 的 的 的 的 的 和 CIR 的 的 的 的 的 的 的 的 的 和 CIR 格式 的 的 的 的 的 的 和 CIBIBRA 的 的 。