mooc.ai/bbs
(戳文末阅读原文直接进)
一个小介绍:
社区目前主要功能是问答和博客,支持文字、图片、视频、代码、公式、超链接,这些功能可以让你在描述问题 / 回答问题 / 写文章的时候用最清晰的方式来表达,还需要什么你说,我改。
请问,有没有处理数据不平衡的方法呢?好的方法,其次有什么好的数据增强的方法呢
来自社友的回答
▼▼▼
@MicoonZhang
比较简单常用的比如:
数据少的时候常使用上采样(oversampling),复制观测值少的类的样本
数据多的时候常使用下采样(undersampling),去除观测值多的类的样本
再就是可以通过算法生成不平衡样本:
经典的如 SMOTE(字面翻译 - 综合少数样本的过抽样技术,大概理解),使用两个或者多个样本的距离作为度量标准判断相似度,然后把其中一个样本加上随机噪声(或者叫扰动,此值实在相邻的样本的差异之间)来生成新样本。
其他方法比如加权、用带惩罚的模型(比如 penalized-SVM 或者 penalized-LDA 等)。
或许你可以换个思路,把样本很不平衡问题换做异常点检测?或者用一分类(One-Class-SVM)?或许是考虑用 RandomForest 等对训练集随机采样的模型?
这种问题和业务需求也有很强的相关性,可能根据领域知识也能解决一些问题。
@mojuan
通常可以考虑 oversampling 或者 undersampling,修改 cost function 等方法,具体可以参考 Haibo He 老师关于不平衡数据处理的一篇高引综述。
@JianJuly
可以参考《Generalised Dice Overlap as a Deep Learning Loss Function for Highly Unbalanced Segmentations》及其引文。写的特别详细。
新人福利
关注 AI 研习社(okweiwu),回复 1 领取
【超过 1000G 神经网络 / AI / 大数据,教程,论文】
如果你有更好的答案,点击阅读原文分享你的观点~
▼▼▼