Class distribution skews in imbalanced datasets may lead to models with prediction bias towards majority classes, making fair assessment of classifiers a challenging task. Balanced Accuracy is a popular metric used to evaluate a classifier's prediction performance under such scenarios. However, this metric falls short when classes vary in importance, especially when class importance is skewed differently from class cardinality distributions. In this paper, we propose a simple and general-purpose evaluation framework for imbalanced data classification that is sensitive to arbitrary skews in class cardinalities and importances. Experiments with several state-of-the-art classifiers tested on real-world datasets and benchmarks from two different domains show that our new framework is more effective than Balanced Accuracy -- not only in evaluating and ranking model predictions, but also in training the models themselves.


翻译:分类分布在不平衡的数据集中的偏差可能导致预测偏向多数类的模型,使公平评估分类者成为一项艰巨的任务。 平衡准确性是用来评价分类者在这种假设情景下的预测绩效的流行指标。 但是,当等级不同时,这一指标就显得不足,特别是当等级重要性与等级基本分布不同时。 在本文件中,我们提出了一个简单和通用的数据不平衡分类评价框架,该框架对等级基本和重要性的任意偏差十分敏感。在现实世界数据集和两个不同领域基准中测试的若干最先进的分类者进行的实验表明,我们的新框架比平衡准确性(不仅在评价和排序模型预测方面,而且在培训模型本身方面)更有效。

0
下载
关闭预览

相关内容

Python分布式计算,171页pdf,Distributed Computing with Python
专知会员服务
108+阅读 · 2020年5月3日
【康奈尔大学】度量数据粒度,Measuring Dataset Granularity
专知会员服务
13+阅读 · 2019年12月27日
机器学习入门的经验与建议
专知会员服务
94+阅读 · 2019年10月10日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
53+阅读 · 2019年9月29日
已删除
将门创投
4+阅读 · 2018年6月1日
Arxiv
0+阅读 · 2020年11月25日
Arxiv
7+阅读 · 2020年3月1日
Arxiv
6+阅读 · 2018年3月28日
VIP会员
相关资讯
已删除
将门创投
4+阅读 · 2018年6月1日
Top
微信扫码咨询专知VIP会员