新智元报道
来源:夕小瑶的卖萌屋
作者:Yuzhe Yang
半监督学习 --- 也即利用更多的无标签数据;
自监督学习 --- 不利用任何其他数据,仅通过在现有的不平衡数据上先做一步不带标签信息的自监督预训练(self-supervised pre-training)
研究背景
我们的研究动机和思路
从正面价值的角度,我们发现当有更多的无标签数据时,这些不平衡的标签提供了稀缺的监督信息。通过利用这些信息,我们可以结合半监督学习去显著的提高最后的分类结果,即使无标签数据也存在长尾分布。
从负面价值的角度,我们证明了不平衡标签并非在所有情况下都是有用的。标签的不平衡大概率会产生label bias。因此在训练中,我们首先想到“抛弃”标签的信息,通过自监督的学习方式先去学到好的起始表示形式。我们的结果表面通过这样的自监督预训练方式得到的模型也能够有效的提高分类的准确性。
半监督框架下的不均衡学习
原始数据集的不平衡性会影响我们最后estimator的准确性。越不平衡的数据集我们expect 基础分类器有一个更大的 。越大的 影响我们的estimator 到理想的均值之间的距离。
无标签数据集的不平衡性影响我们能够得到一个好的estimator的概率。对于还不错的基础分类器, 可以看做是对于无标签数据集的不平衡性的近似。我们可以看到,当:
,如果无标签数据很不平衡,那么数据少的一项会主导另外一项,从而影响最后的概率。
关于半监督不均衡学习的进一步思考
自监督框架下的不均衡学习
有很高的概率,我们能得到一个更好的分类器。这个分类器的error probability随数据维度 的增加而指数型减小。对于如今常见的高维数据(如图像)这种性质是我们希望得到的。
训练数据的不平衡性会影响我们能够得到这样一个好的分类器的概率。上文中, 和 代表训练数据里不同类的数量。从 和 这两项中我们可以发现,当数据越多且越平衡,我们就有更高的概率得到一个好的分类器。
结语