Semi-supervised learning (SSL) is one of the most promising paradigms to circumvent the expensive labeling cost for building a high-performance model. Most existing SSL methods conventionally assume both labeled and unlabeled data are drawn from the same (class) distribution. However, unlabeled data may include out-of-class samples in practice; those that cannot have one-hot encoded labels from a closed-set of classes in label data, i.e. unlabeled data is an open-set. In this paper, we introduce OpenCoS, a method for handling this realistic semi-supervised learning scenario based upon a recent framework of self-supervised visual representation learning. Specifically, we first observe that the out-of-class samples in the open-set unlabeled dataset can be identified effectively via self-supervised contrastive learning. Then, OpenCoS utilizes this information to overcome the failure modes in the existing state-of-the-art semi-supervised methods, by utilizing one-hot pseudo-labels and soft-labels for the identified in- and out-of-class unlabeled data, respectively. Our extensive experimental results show the effectiveness of OpenCoS, fixing up the state-of-the-art semi-supervised methods to be suitable for diverse scenarios involving open-set unlabeled data.
翻译:半监督学习(SSL) 是绕过高性能模型的昂贵标签成本的最有希望的范式之一。 大多数现有的SSL方法通常假定标签和非标签数据都是来自同一(类)分布。 然而,无标签数据可能包括实践中的类外抽样; 那些在标签数据中无法从封闭型类中单热编码标签, 即无标签数据是开放的。 在本文中, 我们引入 OpenCOS, 这是一种处理现实的半监督的半监督学习方案的方法, 其基础是最新的自我监督的视觉演示学习框架。 具体地说, 我们首先观察到, 开放型非标签数据集中的类外样本可以通过自我监督对比学习来有效识别。 然后, OpenCOS 利用这一信息克服当前最先进的开放型半监督型数据的失败模式, 利用一个假标签和软标签的半监督型选项处理这一现实化的半监督学习方案, 以最新的框架为基础, 以自我监督的视觉演示的视觉演示的、 内部和外部的标签型模型数据, 分别显示我们内部的、 标签型、 的、 高级的、 标签型、 的、 的、 等式的、 的、 等式的、 的、 的、 的、 等式的、 的、 的、 的、 的、 等式的、 等的、 的、 的、 的、 的、 等的、 的、 的、 的、 的、 的、 等的、 等的、 的、 的、 的、 的、 的、 的、 的、 的、 的、 的、 的、 的、 的、 的、 的、 的、 的、 的、 的、 的、 的、 的、 的、 的、 的、 的、 的、 的、 的、 的、 的、 的、 的、 的、 的、 等的、 的、 的、 的、 的、 的、 的、 的、 的、 的、 的、 的、 的、 的、 、 的、 的、 、 、 、 、 、 、