In binary classification, imbalance refers to situations in which one class is heavily under-represented. This issue is due to either a data collection process or because one class is indeed rare in a population. Imbalanced classification frequently arises in applications such as biology, medicine, engineering, and social sciences. In this manuscript, for the first time, we theoretically study the impact of imbalance class sizes on the linear discriminant analysis (LDA) in high dimensions. We show that due to data scarcity in one class, referred to as the minority class, and high-dimensionality of the feature space, the LDA ignores the minority class yielding a maximum misclassification rate. We then propose a new construction of a hard-thresholding rule based on a divide-and-conquer technique that reduces the large difference between the misclassification rates. We show that the proposed method is asymptotically optimal. We further study two well-known sparse versions of the LDA in imbalanced cases. We evaluate the finite-sample performance of different methods using simulations and by analyzing two real data sets. The results show that our method either outperforms its competitors or has comparable performance based on a much smaller subset of selected features, while being computationally more efficient.


翻译:在二进制分类中,不平衡是指某一类人代表性严重不足的情况。这个问题要么是由于数据收集过程,要么是因为人口中某一类人确实很少。在生物学、医学、工程学和社会科学等应用中,常常会出现不平衡的分类。在本手稿中,我们首次从理论上研究不平衡的分类规模对高层次线性差异分析的影响。我们进一步研究一个类人的数据稀缺,称为少数类,以及地物空间的高度维度,因此LDA忽略了少数类人得出最高分类率的少数类人。我们然后提议根据分而治之技术,制定新的硬持有规则,以缩小分类率之间的巨大差异。我们从理论上看,我们发现拟议的方法在高层次上是微不足道的。我们进一步研究了在不平衡案件中众所周知的两种LDA的稀薄版本。我们利用模拟和两个实际数据集评估了不同方法的微缩性表现。结果显示,我们的方法要么是精选的,要么是模拟,要么是模拟,要么是可比的。

0
下载
关闭预览

相关内容

【KDD2021】图神经网络,NUS- Xavier Bresson教授
专知会员服务
62+阅读 · 2021年8月20日
Fariz Darari简明《博弈论Game Theory》介绍,35页ppt
专知会员服务
109+阅读 · 2020年5月15日
因果图,Causal Graphs,52页ppt
专知会员服务
246+阅读 · 2020年4月19日
专知会员服务
159+阅读 · 2020年1月16日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
103+阅读 · 2019年10月9日
已删除
将门创投
7+阅读 · 2018年8月28日
Arxiv
0+阅读 · 2022年1月6日
Arxiv
0+阅读 · 2022年1月5日
Arxiv
0+阅读 · 2022年1月4日
Meta-Learning to Cluster
Arxiv
17+阅读 · 2019年10月30日
VIP会员
相关资讯
已删除
将门创投
7+阅读 · 2018年8月28日
Top
微信扫码咨询专知VIP会员