For several years till date, the major issues in terms of solving for classification problems are the issues of Imbalanced data. Because majority of the machine learning algorithms by default assumes all data are balanced, the algorithms do not take into consideration the distribution of the data sample class. The results tend to be unsatisfactory and skewed towards the majority sample class distribution. This implies that the consequences as a result of using a model built using an Imbalanced data without handling for the Imbalance in the data could be misleading both in practice and theory. Most researchers have focused on the application of Synthetic Minority Oversampling Technique (SMOTE) and Adaptive Synthetic (ADASYN) Sampling Approach in handling data Imbalance independently in their works and have failed to better explain the algorithms behind these techniques with computed examples. This paper focuses on both synthetic oversampling techniques and manually computes synthetic data points to enhance easy comprehension of the algorithms. We analyze the application of these synthetic oversampling techniques on binary classification problems with different Imbalanced ratios and sample sizes.


翻译:在迄今为止的几年里,解决分类问题的主要问题是数据不平衡问题。由于大多数机算学习算法默认假定所有数据都是均衡的,因此算法没有考虑到数据抽样类的分布情况。结果往往不令人满意,偏向于大多数抽样类的分布。这意味着,使用使用不处理数据平衡的模型而不处理数据平衡的模型,在实践和理论上都可能产生误导。大多数研究人员都侧重于在独立处理数据抽样类时应用合成少数群体过度采样技术(SMOTE)和适应性合成技术(ADASYN)抽样方法,未能用计算的例子更好地解释这些技术背后的算法。本文侧重于合成过度采样技术和人工编篡合成数据点,以便更方便地理解算法。我们分析了这些合成过度采样技术在具有不同平衡比率和抽样大小的二进制分类问题方面的应用情况。

0
下载
关闭预览

相关内容

一份简单《图神经网络》教程,28页ppt
专知会员服务
126+阅读 · 2020年8月2日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
80+阅读 · 2020年7月26日
《DeepGCNs: Making GCNs Go as Deep as CNNs》
专知会员服务
31+阅读 · 2019年10月17日
强化学习最新教程,17页pdf
专知会员服务
181+阅读 · 2019年10月11日
机器学习入门的经验与建议
专知会员服务
94+阅读 · 2019年10月10日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
Soft-NMS – Improving Object Detection With One Line of Code
统计学习与视觉计算组
6+阅读 · 2018年3月30日
【学习】(Python)SVM数据分类
机器学习研究会
6+阅读 · 2017年10月15日
已删除
将门创投
3+阅读 · 2017年10月12日
【推荐】GAN架构入门综述(资源汇总)
机器学习研究会
10+阅读 · 2017年9月3日
【推荐】SVM实例教程
机器学习研究会
17+阅读 · 2017年8月26日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
0+阅读 · 2020年11月20日
Arxiv
16+阅读 · 2020年5月20日
Arxiv
24+阅读 · 2020年3月11日
Arxiv
12+阅读 · 2019年3月14日
VIP会员
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
Soft-NMS – Improving Object Detection With One Line of Code
统计学习与视觉计算组
6+阅读 · 2018年3月30日
【学习】(Python)SVM数据分类
机器学习研究会
6+阅读 · 2017年10月15日
已删除
将门创投
3+阅读 · 2017年10月12日
【推荐】GAN架构入门综述(资源汇总)
机器学习研究会
10+阅读 · 2017年9月3日
【推荐】SVM实例教程
机器学习研究会
17+阅读 · 2017年8月26日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员