From two unlabeled (U) datasets with different class priors, we can train a binary classifier by empirical risk minimization, which is called UU classification. It is promising since UU methods are compatible with any neural network (NN) architecture and optimizer as if it is standard supervised classification. In this paper, however, we find that UU methods may suffer severe overfitting, and there is a high co-occurrence between the overfitting and the negative empirical risk regardless of datasets, NN architectures, and optimizers. Hence, to mitigate the overfitting problem of UU methods, we propose to keep two parts of the empirical risk (i.e., false positive and false negative) non-negative by wrapping them in a family of correction functions. We theoretically show that the corrected risk estimator is still asymptotically unbiased and consistent; furthermore we establish an estimation error bound for the corrected risk minimizer. Experiments with feedforward/residual NNs on standard benchmarks demonstrate that our proposed correction can successfully mitigate the overfitting of UU methods and significantly improve the classification accuracy.


翻译:从两个没有标签的(U)数据集中,不同类别前科不同,我们可以通过实验风险最小化来培训一个二分级(实验风险最小化),称为UU分类,这是很有希望的,因为UU方法与任何神经网络(NN)架构和优化相容,就像标准监督分类一样。然而,在本文中,我们发现UU方法可能严重超配,而且无论数据集、NNE架构和优化器如何,都存在高度的超配和负面经验风险。因此,为了减轻U方法的过度适应问题,我们提议将经验风险的两个部分(即虚假的正反)保留在纠正功能的组合中,不负(即假的正反的)非负风险部分。我们理论上表明,更正的风险估计值仍然在考虑上是不偏不倚和一致的;此外,我们在标准基准上对经修正的风险最小化的数值进行试验,显示我们提出的修正可以成功地减轻U方法的过度适应,并大大改进了分类的准确性。

0
下载
关闭预览

相关内容

经验风险是对训练集中的所有样本点损失函数的平均最小化。经验风险越小说明模型f(X)对训练集的拟合程度越好。
【Google】监督对比学习,Supervised Contrastive Learning
专知会员服务
74+阅读 · 2020年4月24日
专知会员服务
61+阅读 · 2020年3月4日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
机器学习入门的经验与建议
专知会员服务
92+阅读 · 2019年10月10日
ICLR2019最佳论文出炉
专知
12+阅读 · 2019年5月6日
目标检测中的Consistent Optimization
极市平台
6+阅读 · 2019年4月23日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
【SIGIR2018】五篇对抗训练文章
专知
12+阅读 · 2018年7月9日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
Arxiv
9+阅读 · 2018年3月28日
Arxiv
5+阅读 · 2017年12月14日
Arxiv
3+阅读 · 2017年10月1日
VIP会员
相关资讯
ICLR2019最佳论文出炉
专知
12+阅读 · 2019年5月6日
目标检测中的Consistent Optimization
极市平台
6+阅读 · 2019年4月23日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
【SIGIR2018】五篇对抗训练文章
专知
12+阅读 · 2018年7月9日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
Top
微信扫码咨询专知VIP会员