We study the combinatorics of cross-validation based AUC estimation under the null hypothesis that the binary class labels are exchangeable, that is, the data are randomly assigned into two classes given a fixed class proportion. In particular, we study how the estimators based on leave-pair-out cross-validation (LPOCV), in which every possible pair of data with different class labels is held out from the training set at a time, behave under the null without any prior assumptions of the learning algorithm or the data. It is shown that the maximal number of different fixed proportion label assignments on a sample of data, for which a learning algorithm can achieve zero LPOCV error, is the maximal size of a constant weight error correcting code, whose length is the sample size, weight is the number of data labeled with one, and the Hamming distance between code words is four. We then introduce the concept of a light constant weight code and show similar results for nonzero LPOCV errors. We also prove both upper and lower bounds on the maximal sizes of the light constant weight codes that are similar to the classical results for contant weight codes. These results pave the way towards the design of new LPOCV based statistical tests for the learning algorithms ability of distinguishing two classes from each other that are analogous to the classical Wilcoxon-Mann-Whitney U test for fixed functions. Behavior of some representative examples of learning algorithms and data are simulated in an experimental case study.


翻译:在无效假设下,我们研究了交叉校验基于ACUC的交叉校验估算的组合体。 在无效假设下,二进制类标签是可以互换的,也就是说,数据被随机分配到两个类中,给定一个固定的等级比例比例比例比例。特别是,我们研究了基于休假擦斗交叉校验(LPOCV)的估测器(LPOCV)是如何在每组培训中保留每组不同等级标签的数据的组合,在无效状态下行事,不事先假定学习算法或数据。我们还发现,数据样本中不同固定比例标签分配的最大值,即数据可随机分配到两个类别中。对于这些数据,一个是不变重量校准代码的最大值,其长度为样本尺寸,重量的重量是标定的每组数据,而代码之间的宽度距离为4。我们随后引入了轻定数权值代码的概念,并显示非零读取LPOCVVV值错误的类似结果。我们还证明,在数据样本中,不同固定比例定型标值标签的最大值分配数数数数数,对于计算法中,这些常定级标准级标准级的计算法的每类的计算法标准值值标准值标准值值值值值值值值的计算法,其值值值值值值值值值值值的计算结果,类似于于基底基值的每组的每组的计算法,是基点法,这些基点法,这些基底基点法的计算法,这些基值的计算法的计算法的计算法,这些基结果,这些基底基底值比。

0
下载
关闭预览

相关内容

专知会员服务
161+阅读 · 2020年1月16日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
152+阅读 · 2019年10月12日
机器学习入门的经验与建议
专知会员服务
92+阅读 · 2019年10月10日
【论文笔记】通俗理解少样本文本分类 (Few-Shot Text Classification) (1)
深度学习自然语言处理
7+阅读 · 2020年4月8日
已删除
将门创投
6+阅读 · 2019年9月3日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
【推荐】决策树/随机森林深入解析
机器学习研究会
5+阅读 · 2017年9月21日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Optimization for deep learning: theory and algorithms
Arxiv
105+阅读 · 2019年12月19日
Arxiv
4+阅读 · 2018年3月14日
Arxiv
5+阅读 · 2017年12月14日
Arxiv
3+阅读 · 2016年2月24日
VIP会员
相关VIP内容
专知会员服务
161+阅读 · 2020年1月16日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
152+阅读 · 2019年10月12日
机器学习入门的经验与建议
专知会员服务
92+阅读 · 2019年10月10日
相关资讯
【论文笔记】通俗理解少样本文本分类 (Few-Shot Text Classification) (1)
深度学习自然语言处理
7+阅读 · 2020年4月8日
已删除
将门创投
6+阅读 · 2019年9月3日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
【推荐】决策树/随机森林深入解析
机器学习研究会
5+阅读 · 2017年9月21日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员