点击上方蓝字
关注我们
导
读
很多类别分布不平衡的应用常遇到小类样本有限的问题。人工上采样方法是一类流行的类别不平衡学习方法,由于人工样本与小类样本并非独立同分布,因此在小类样本有限时可能会引入大量噪声。很多设计更为复杂的人工采样方法通过去噪或者生成与真实数据分布更为一致的样本来解决噪声问题,但它们对噪声或真实数据的假设并不一定成立。
为了使人工采样方法更适用于小类样本有限的问题,本文提出了Traso框架将人工小类样本视为一个附加的数据源,利用迁移学习将其中的知识迁移到小类。作为Traso框架的一种具体实现,提出的TrasoBoost方法首先产生人工样本来平衡类别大小。然后在每一个boosting方法的迭代过程中,当人工样本和原数据被误分时,其权重分别降低和提高,否则保持不变。被误分的人工样本是潜在的噪声,因此在后续迭代过程中的影响力变小。此外,小类样本的权重变化比大类样本的权重变化更大,以在学习过程中具有更大的影响力。并且,只使用原数据对错误率进行估计以避免噪声的影响。最后,因为人工样本与小类高度相关,因此集成所有弱学习进行预测。实验结果表明,TrasoBoost方法优于很多流行的类别不平衡学习方法。
文章精要
请长按下方二维码识别,阅读该文。
相关内容推荐:
随机局部搜索求解最大可满足性问题的经验研究 2019 13(1):86-98
基于情感信息和神经网络模型的立场分析 2019 13(1):127-138
基于鲁棒特征学习和无需大规模预训练的在线判别式跟踪算法 2018 12(6):1160-1172
基于BP神经网络和主成分分析的岩体滤波算法 2018 12(6):1149-1159
卷积自适应降噪自动编码器 2018 12(6):1140-1148
Frontiers of Computer Science
Frontiers of Computer Science (FCS)是由教育部主管、高等教育出版社和北京航空航天大学共同主办、SpringerNature 公司海外发行的英文学术期刊。本刊于 2007 年创刊,双月刊,全球发行。主要刊登计算机科学领域具有创新性的综述论文、研究论文等。本刊主编为周志华教授,共同主编为熊璋教授。编委会及青年 AE 团队由国内外知名学者及优秀青年学者组成。本刊被 SCI、Ei、DBLP、INSPEC、SCOPUS 和中国科学引文数据库(CSCD)核心库等收录,为 CCF 推荐期刊;两次入选“中国科技期刊国际影响力提升计划”;入选“第4届中国国际化精品科技期刊”。
长按二维码关注Frontiers of Computer Science公众号