项目名称: 基于半监督集成学习的不平衡数据研究

项目编号: No.61203292

项目类型: 青年科学基金项目

立项/批准年度: 2013

项目学科: 自动化学科

项目作者: 陈欢欢

作者单位: 中国科学技术大学

项目金额: 24万元

中文摘要: 多类别数据不平衡问题(即数据中的一类样本在数量上远多于另一类或几类)广泛存在于各种实际应用中。传统的学习算法容易对大类过分重视,进而导致分类器在小类别数据上精度很低。采样方法作为一种重要的平衡数据集的手段受到了研究者广泛的重视。本课题主要针对现有采样方法机制单一、缺少容错机制等问题,提出了一种基于多假设的采样方法,通过只采样数据而不指定数据类别的方式从半监督学习的角度来解决多类别不平衡这个特殊的监督学习问题;提出了一种基于协作型半监督集成学习的不平衡数据处理方法,加深了对集成学习模型的理解、扩展了其应用范围;并且将理论研究成果直接应用于实际的生物信息学问题。

中文关键词: 不平衡学习;模型空间中的学习;计算智能;大数据;

英文摘要: Many real-world machine learning applications are characterized as imbalanced classification problems, where there are many more instances of some classes than others. For this kind of classification problems, the typical classifiers are prone to ignore the small classes, which lead to inferior performance on small classes. As an important approach to tackle class imbalanced problems, the resampling methods have been paid a lot of attention. However, the existing resampling methods always assign the "assumed" labels to new sampled data and do not have the robust approach for different types of data in real-world applications. To address these problems, this proposed project will investigate the class imbalanced problem from a semi-supervised learning perspective, which generates unlabelled synthetic data from minority classes and uses both labelled and unlabelled data to build better classifiers by multiple assumption based sampling approaches. The proposed project proposes to employ collaborative semi-supervised ensemble methods to address the imbalanced problems, which leads to better understanding of ensemble model and extended application domains of ensemble model. In addition, the proposed research will incorporate the theoretical research results to the real-world Bioinformatics problems.

英文关键词: Imbalanced Learning;Learning in the Model Space;Computational Intelligence;Big Data;

成为VIP会员查看完整内容
0

相关内容

CVPR 2022 Oral | 基于熵筛选的半监督三维旋转回归
专知会员服务
17+阅读 · 2022年4月18日
专知会员服务
25+阅读 · 2021年9月10日
专知会员服务
86+阅读 · 2021年9月4日
专知会员服务
36+阅读 · 2021年6月6日
人工智能模型数据泄露的攻击与防御研究综述
专知会员服务
70+阅读 · 2021年3月31日
【AAAI2021】基于双任务一致性的半监督医学图像分割
专知会员服务
30+阅读 · 2021年2月7日
鲁棒模式识别研究进展
专知会员服务
40+阅读 · 2020年8月9日
基于深度学习的多标签生成研究进展
专知会员服务
141+阅读 · 2020年4月25日
一文解决样本不均衡(全)
极市平台
5+阅读 · 2022年1月9日
NeurIPS 2021:半监督节点分类中的拓扑不平衡学习
图与推荐
1+阅读 · 2021年11月7日
【KDD2021】基于生成对抗图网络的不平衡网络嵌入
用深度学习揭示数据的因果关系
专知
28+阅读 · 2019年5月18日
非平衡数据集 focal loss 多类分类
AI研习社
33+阅读 · 2019年4月23日
机器学习中如何处理不平衡数据?
机器之心
13+阅读 · 2019年2月17日
半监督深度学习小结:类协同训练和一致性正则化
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2022年4月18日
Arxiv
24+阅读 · 2021年6月25日
Arxiv
16+阅读 · 2021年3月2日
Domain Representation for Knowledge Graph Embedding
Arxiv
14+阅读 · 2019年9月11日
小贴士
相关VIP内容
CVPR 2022 Oral | 基于熵筛选的半监督三维旋转回归
专知会员服务
17+阅读 · 2022年4月18日
专知会员服务
25+阅读 · 2021年9月10日
专知会员服务
86+阅读 · 2021年9月4日
专知会员服务
36+阅读 · 2021年6月6日
人工智能模型数据泄露的攻击与防御研究综述
专知会员服务
70+阅读 · 2021年3月31日
【AAAI2021】基于双任务一致性的半监督医学图像分割
专知会员服务
30+阅读 · 2021年2月7日
鲁棒模式识别研究进展
专知会员服务
40+阅读 · 2020年8月9日
基于深度学习的多标签生成研究进展
专知会员服务
141+阅读 · 2020年4月25日
相关资讯
一文解决样本不均衡(全)
极市平台
5+阅读 · 2022年1月9日
NeurIPS 2021:半监督节点分类中的拓扑不平衡学习
图与推荐
1+阅读 · 2021年11月7日
【KDD2021】基于生成对抗图网络的不平衡网络嵌入
用深度学习揭示数据的因果关系
专知
28+阅读 · 2019年5月18日
非平衡数据集 focal loss 多类分类
AI研习社
33+阅读 · 2019年4月23日
机器学习中如何处理不平衡数据?
机器之心
13+阅读 · 2019年2月17日
半监督深度学习小结:类协同训练和一致性正则化
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
微信扫码咨询专知VIP会员