会员服务 ·

有没有处理数据不平衡的方法？| 社区问答

2017 年 12 月 18 日 AI研习社

这里是 AI 研习社，我们的社区已经正式推出了！欢迎大家来多多交流~

mooc.ai/bbs

（戳文末阅读原文直接进）

社长为你推荐来自 AI 研习社问答社区的精华问答。如有你也有问题，欢迎进社区提问。

一个小介绍：

社区目前主要功能是问答和博客，支持文字、图片、视频、代码、公式、超链接，这些功能可以让你在描述问题 / 回答问题 / 写文章的时候用最清晰的方式来表达，还需要什么你说，我改。

话不多说，直接上题

问：有没有处理数据不平衡的方法？

请问，有没有处理数据不平衡的方法呢？好的方法，其次有什么好的数据增强的方法呢

来自社友的回答

▼▼▼

@MicoonZhang

比较简单常用的比如：

数据少的时候常使用上采样（oversampling），复制观测值少的类的样本
数据多的时候常使用下采样（undersampling），去除观测值多的类的样本

再就是可以通过算法生成不平衡样本：

经典的如 SMOTE（字面翻译 - 综合少数样本的过抽样技术，大概理解），使用两个或者多个样本的距离作为度量标准判断相似度，然后把其中一个样本加上随机噪声（或者叫扰动，此值实在相邻的样本的差异之间）来生成新样本。

其他方法比如加权、用带惩罚的模型（比如 penalized-SVM 或者 penalized-LDA 等）。

或许你可以换个思路，把样本很不平衡问题换做异常点检测？或者用一分类（One-Class-SVM）？或许是考虑用 RandomForest 等对训练集随机采样的模型？

这种问题和业务需求也有很强的相关性，可能根据领域知识也能解决一些问题。

@mojuan

通常可以考虑 oversampling 或者 undersampling，修改 cost function 等方法，具体可以参考 Haibo He 老师关于不平衡数据处理的一篇高引综述。

@JianJuly

可以参考《Generalised Dice Overlap as a Deep Learning Loss Function for Highly Unbalanced Segmentations》及其引文。写的特别详细。

新人福利

关注 AI 研习社（okweiwu），回复 1 领取

【超过 1000G 神经网络 / AI / 大数据，教程，论文】

如果你有更好的答案，点击阅读原文分享你的观点~

▼▼▼

登录查看更多

相关内容

数据不平衡

关注 0

【ICML2020】图神经网络谱聚类

专知会员服务

43+阅读 · 2020年7月7日

【MIT-ICML2020】图神经网络的泛化与表示的局限

专知会员服务

43+阅读 · 2020年6月23日

商业数据分析，39页ppt

专知会员服务

165+阅读 · 2020年6月2日

生成对抗网络GAN正则化方法: 近期研究综述

专知会员服务

109+阅读 · 2020年5月21日

【TPAMI2020】目标检测中的不平衡问题:综述论文，34页pdf

专知会员服务

55+阅读 · 2020年3月16日

图像分类技巧集，17页ppt《Bag of Tricks for Image Classification》

专知会员服务

95+阅读 · 2020年3月12日

图神经网络表达能力的研究综述，41页pdf

专知会员服务

173+阅读 · 2020年3月10日

【EMNLP2019教程】图神经网络GNN的自然语言处理，附315页PPT及作者博士论文下载

专知会员服务

77+阅读 · 2020年1月27日

强化学习最新教程，17页pdf

专知会员服务

182+阅读 · 2019年10月11日

【文献综述】视频多目标跟踪中的深度学习方法，38页pdf

专知会员服务

53+阅读 · 2019年8月1日

一文教你如何处理不平衡数据集（附代码）

大数据文摘

11+阅读 · 2019年6月2日

目标检测小tricks之样本不均衡处理

PaperWeekly

49+阅读 · 2019年4月5日

机器学习中如何处理不平衡数据？

机器之心

13+阅读 · 2019年2月17日

深度学习训练数据不平衡问题，怎么解决？

AI研习社

7+阅读 · 2018年7月3日

深度学习任务面临非平衡数据问题？试试这个简单方法

数盟

6+阅读 · 2018年5月30日

方法总结：教你处理机器学习中不平衡类问题

专知

9+阅读 · 2018年2月7日

【干货】机器学习中样本比例不平衡的处理方法

机器学习研究会

8+阅读 · 2018年1月14日

可以使用 TensorFlow 代替 OpenCV 进行计算机视觉研究吗？ | 社区问答

AI研习社

4+阅读 · 2018年1月9日

在训练网络的时候，验证集误差是比测试集误差低还是高？ | 社区问答

AI研习社

3+阅读 · 2017年12月10日

关于处理样本不平衡问题的Trick整理

机器学习算法与Python学习

14+阅读 · 2017年12月3日

Say As You Wish: Fine-grained Control of Image Caption Generation with Abstract Scene Graphs

Arxiv

6+阅读 · 2020年3月1日

Deep learning for cardiac image segmentation: A review

Arxiv

21+阅读 · 2019年11月9日

HyperGCN: A New Method of Training Graph Convolutional Networks on Hypergraphs

Arxiv

13+阅读 · 2019年5月22日

Automatic Summarization of Natural Language

Arxiv

3+阅读 · 2018年12月18日

Large Scale GAN Training for High Fidelity Natural Image Synthesis

Arxiv

5+阅读 · 2018年9月28日

Feasibility Based Large Margin Nearest Neighbor Metric Learning

Arxiv

3+阅读 · 2018年5月2日

Logically-Constrained Reinforcement Learning

Arxiv

5+阅读 · 2018年4月22日

Image Moment Models for Extended Object Tracking

Arxiv

3+阅读 · 2018年4月9日

Online Representation Learning with Single and Multi-layer Hebbian Networks for Image Classification

Arxiv

5+阅读 · 2018年1月29日

DuReader: a Chinese Machine Reading Comprehension Dataset from Real-world Applications

Arxiv

4+阅读 · 2017年11月15日

VIP会员