有没有处理数据不平衡的方法?| 社区问答

2017 年 12 月 18 日 AI研习社

这里是 AI 研习社,我们的社区已经正式推出了!欢迎大家来多多交流~

mooc.ai/bbs

(戳文末阅读原文直接进)

社长为你推荐来自 AI 研习社问答社区的精华问答。如有你也有问题,欢迎进社区提问。 

一个小介绍:

社区目前主要功能是问答博客,支持文字、图片、视频、代码、公式、超链接,这些功能可以让你在描述问题 / 回答问题 / 写文章的时候用最清晰的方式来表达,还需要什么你说,我改


  话不多说,直接上题  


问:有没有处理数据不平衡的方法?

请问,有没有处理数据不平衡的方法呢?好的方法,其次有什么好的数据增强的方法呢


来自社友的回答

▼▼▼  

@MicoonZhang      

比较简单常用的比如:

数据少的时候常使用上采样(oversampling),复制观测值少的类的样本
数据多的时候常使用下采样(undersampling),去除观测值多的类的样本

再就是可以通过算法生成不平衡样本:

经典的如 SMOTE(字面翻译 - 综合少数样本的过抽样技术,大概理解),使用两个或者多个样本的距离作为度量标准判断相似度,然后把其中一个样本加上随机噪声(或者叫扰动,此值实在相邻的样本的差异之间)来生成新样本。

其他方法比如加权、用带惩罚的模型(比如 penalized-SVM 或者 penalized-LDA 等)。

或许你可以换个思路,把样本很不平衡问题换做异常点检测?或者用一分类(One-Class-SVM)?或许是考虑用 RandomForest 等对训练集随机采样的模型?

这种问题和业务需求也有很强的相关性,可能根据领域知识也能解决一些问题。

@mojuan        

通常可以考虑 oversampling 或者 undersampling,修改 cost function 等方法,具体可以参考 Haibo He 老师关于不平衡数据处理的一篇高引综述。

@JianJuly  

可以参考《Generalised Dice Overlap as a Deep Learning Loss Function for Highly Unbalanced Segmentations》及其引文。写的特别详细。




新人福利




关注 AI 研习社(okweiwu),回复  1  领取

【超过 1000G 神经网络 / AI / 大数据,教程,论文】


如果你有更好的答案,点击阅读原文分享你的观点~

▼▼▼  

登录查看更多
2

相关内容

专知会员服务
42+阅读 · 2020年7月7日
【MIT-ICML2020】图神经网络的泛化与表示的局限
专知会员服务
42+阅读 · 2020年6月23日
商业数据分析,39页ppt
专知会员服务
160+阅读 · 2020年6月2日
专知会员服务
108+阅读 · 2020年5月21日
专知会员服务
54+阅读 · 2020年3月16日
图神经网络表达能力的研究综述,41页pdf
专知会员服务
169+阅读 · 2020年3月10日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
一文教你如何处理不平衡数据集(附代码)
大数据文摘
11+阅读 · 2019年6月2日
目标检测小tricks之样本不均衡处理
PaperWeekly
49+阅读 · 2019年4月5日
机器学习中如何处理不平衡数据?
机器之心
13+阅读 · 2019年2月17日
深度学习训练数据不平衡问题,怎么解决?
AI研习社
7+阅读 · 2018年7月3日
【干货】机器学习中样本比例不平衡的处理方法
机器学习研究会
8+阅读 · 2018年1月14日
关于处理样本不平衡问题的Trick整理
机器学习算法与Python学习
14+阅读 · 2017年12月3日
Deep learning for cardiac image segmentation: A review
Arxiv
21+阅读 · 2019年11月9日
Arxiv
3+阅读 · 2018年12月18日
Arxiv
5+阅读 · 2018年4月22日
Arxiv
3+阅读 · 2018年4月9日
VIP会员
相关VIP内容
专知会员服务
42+阅读 · 2020年7月7日
【MIT-ICML2020】图神经网络的泛化与表示的局限
专知会员服务
42+阅读 · 2020年6月23日
商业数据分析,39页ppt
专知会员服务
160+阅读 · 2020年6月2日
专知会员服务
108+阅读 · 2020年5月21日
专知会员服务
54+阅读 · 2020年3月16日
图神经网络表达能力的研究综述,41页pdf
专知会员服务
169+阅读 · 2020年3月10日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
相关资讯
一文教你如何处理不平衡数据集(附代码)
大数据文摘
11+阅读 · 2019年6月2日
目标检测小tricks之样本不均衡处理
PaperWeekly
49+阅读 · 2019年4月5日
机器学习中如何处理不平衡数据?
机器之心
13+阅读 · 2019年2月17日
深度学习训练数据不平衡问题,怎么解决?
AI研习社
7+阅读 · 2018年7月3日
【干货】机器学习中样本比例不平衡的处理方法
机器学习研究会
8+阅读 · 2018年1月14日
关于处理样本不平衡问题的Trick整理
机器学习算法与Python学习
14+阅读 · 2017年12月3日
Top
微信扫码咨询专知VIP会员