一文教你如何处理不平衡数据集（附代码）

2019 年 6 月 2 日 大数据文摘

大数据文摘授权转载自数据派THU

分类是机器学习最常见的问题之一，处理它的最佳方法是从分析和探索数据集开始，即从探索式数据分析（Exploratory Data Analysis， EDA）开始。除了生成尽可能多的数据见解和信息，它还用于查找数据集中可能存在的任何问题。在分析用于分类的数据集时，类别不平衡是常见问题之一。

什么是数据不平衡（类别不平衡）？

数据不平衡通常反映了数据集中类别的不均匀分布。例如，在信用卡欺诈检测数据集中，大多数信用卡交易类型都不是欺诈，仅有很少一部分类型是欺诈交易，如此以来，非欺诈交易和欺诈交易之间的比率达到50:1。本文中，我将使用来自Kaggle的信用卡欺诈交易数据数据集，你可以从这里下载。

相关内容

类别不平衡

关注 2

一份简明有趣的Python学习教程，42页pdf

专知会员服务

77+阅读 · 2020年6月22日

Python地理数据处理，362页pdf，Geoprocessing with Python

专知会员服务

115+阅读 · 2020年5月24日

干净的数据：数据清洗入门与实践，204页pdf

专知会员服务

164+阅读 · 2020年5月14日

【UC】伯克利一份简明《机器学习数学基础》丝滑入门手册，47页pdf

专知会员服务

247+阅读 · 2020年4月15日

【TPAMI2020】目标检测中的不平衡问题:综述论文，34页pdf

专知会员服务

55+阅读 · 2020年3月16日

【经典书】Python数据数据分析第二版，541页pdf

专知会员服务

197+阅读 · 2020年3月12日

缺失数据统计分析，第三版，462页pdf

专知会员服务

110+阅读 · 2020年2月28日

【2020新书】Python大数据处理，Mastering Large Datasets with Python，311页pdf

专知会员服务

197+阅读 · 2020年2月1日

为机器学习应用实践Scikit-Learn，数据科学基础与Python，247页pdf

专知会员服务

144+阅读 · 2019年12月1日

【书籍】深度学习框架：PyTorch入门与实践（附代码）

专知会员服务

167+阅读 · 2019年10月28日

推荐：一文教你如何处理不平衡数据集（附代码）

数据分析

20+阅读 · 2019年6月3日

非平衡数据集 focal loss 多类分类

AI研习社

33+阅读 · 2019年4月23日

机器学习中如何处理不平衡数据？

机器之心

13+阅读 · 2019年2月17日

一文教你构建图书推荐系统【附代码】

机器学习算法与Python学习

10+阅读 · 2018年9月16日

深度学习训练数据不平衡问题，怎么解决？

AI研习社

7+阅读 · 2018年7月3日

深度学习任务面临非平衡数据问题？试试这个简单方法

数盟

6+阅读 · 2018年5月30日

【干货】一文教你构建图书推荐系统（附代码）

专知

28+阅读 · 2018年4月19日

Xgboost算法——Kaggle案例

R语言中文社区

13+阅读 · 2018年3月13日

方法总结：教你处理机器学习中不平衡类问题

专知

9+阅读 · 2018年2月7日

关于处理样本不平衡问题的Trick整理

机器学习算法与Python学习

14+阅读 · 2017年12月3日

A Baseline for Few-Shot Image Classification

Arxiv

7+阅读 · 2020年3月1日

Implicit Maximum Likelihood Estimation

Arxiv

7+阅读 · 2018年9月24日

Speeding-up Object Detection Training for Robotics with FALKON

Arxiv

6+阅读 · 2018年8月27日

Human-In-The-Loop Person Re-Identification

Arxiv

4+阅读 · 2018年5月4日

A Tidy Data Model for Natural Language Processing using cleanNLP

Arxiv

4+阅读 · 2018年5月3日

Charades-Ego: A Large-Scale Dataset of Paired Third and First Person Videos

Arxiv

4+阅读 · 2018年4月30日

Baselines and test data for cross-lingual inference

Arxiv

3+阅读 · 2018年3月2日

TernausNet: U-Net with VGG11 Encoder Pre-Trained on ImageNet for Image Segmentation

Arxiv

5+阅读 · 2018年1月17日

Geometry in Active Learning for Binary and Multi-class Image Segmentation

Arxiv

9+阅读 · 2018年1月16日

Conditional Random Field and Deep Feature Learning for Hyperspectral Image Segmentation

Arxiv

11+阅读 · 2017年12月27日

VIP会员