项目名称: 基于规则化Boosting算法和度量元选取技术的软件缺陷倾向预测模型

项目编号: No.61300069

项目类型: 青年科学基金项目

立项/批准年度: 2014

项目学科: 自动化技术、计算机技术

项目作者: 王世海

作者单位: 北京航空航天大学

项目金额: 23万元

中文摘要: 作为保证软件质量的重要手段之一,软件缺陷倾向预测模型的构建方法已成为研究者们关注的热点。具有很强模型构建能力的模式识别技术在于软件缺陷倾向预测领域已得到了一定的应用,但受限于软件缺陷数据固有的数据分布不平衡和输入信息(度量元)冗余的特点,现有的基于模式识别的软件缺陷倾向预测模型的性能受到很大制约。传统的非平衡数据学习算法,通过简单地人工样本添加方法进行样本扩充,对扩充样本带来的不确定类标注信息未加处理,并且不具备剔除冗余信息的能力。本项目对Boosting算法的损失函数进行理论研究,通过加入先验信息,对人工样本进行规则化学习,提出适合非平衡数据的损失函数,构造新的Boosting算法,使其能对人工扩充后的非平衡数据进行规则化学习和特征提取,最大程度上挖掘数据所含信息,提高模型精度。最终构建具有度量元选取和针对非平衡数据学习能力的性能优越的软件缺陷倾向预测模型。

中文关键词: 非平衡数据;规则化Boosting;模式识别;软件度量元选取;软件缺陷倾向预测

英文摘要: Software fault-proneness prediction is an effective approach to make a significent improvement on the qulity of software systems. Patter recogniton methods have revealed a strong modeling ability, and have been applying to software fault-proneness prediction task. BUT how to employ parttern recognition is still an open question, due to the characters of software fault data, imbalance data distribution and information redundancy. Currently,in pattern recognition area, Imbalance data learning is still an open challenge left. Several approaches have been proposed or extended to this with synthetic oversampling technique(SOTE). But, to our best knowledge, none of them take the issue of the synthetic samples with the unserness of labelling (class information) into account. There are many metrics of software have been proposed, in which there is redundant information (noises) for software fault-proneness prediction. In our project we will propose a novel Boosting cost function with introducing prior-knowledges,and building a regularized Boosting algorithm for imbalance data learning, which treats the orignal data and synthetic data separately and also has the feature selection ability. Finally the performance of model will be improved dramaticly in imbalance data learning tasks. Base on the research in this project

英文关键词: unbalanced data;regularized Boosting;software metric selection;software defect propensity prediction;pattern recognition

成为VIP会员查看完整内容
0

相关内容

CVPR 2022 Oral | 基于熵筛选的半监督三维旋转回归
专知会员服务
17+阅读 · 2022年4月18日
WSDM 2022 | 基于图神经网络的协同过滤设计空间研究
专知会员服务
36+阅读 · 2022年1月3日
【NeurIPS 2021】基于次模优化的规则学习算法框架
专知会员服务
33+阅读 · 2021年11月30日
专知会员服务
31+阅读 · 2021年7月25日
专知会员服务
28+阅读 · 2021年6月7日
专知会员服务
30+阅读 · 2021年2月7日
专知会员服务
47+阅读 · 2020年10月20日
基于机器学习的自动化网络流量分析
CCF计算机安全专委会
4+阅读 · 2022年4月8日
SIGIR2021 | 基于排序的推荐系统度量优化新视角
机器学习与推荐算法
1+阅读 · 2021年12月6日
一文速览机器学习的类别
极市平台
0+阅读 · 2021年10月31日
如何衡量目标检测模型的优劣
极市平台
1+阅读 · 2021年10月17日
常用的模型集成方法介绍:bagging、boosting 、stacking
如何理解模型的过拟合与欠拟合,以及如何解决?
七月在线实验室
12+阅读 · 2019年4月23日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
7+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2022年4月14日
Arxiv
12+阅读 · 2021年6月29日
Learning Embedding Adaptation for Few-Shot Learning
Arxiv
16+阅读 · 2018年12月10日
小贴士
相关VIP内容
CVPR 2022 Oral | 基于熵筛选的半监督三维旋转回归
专知会员服务
17+阅读 · 2022年4月18日
WSDM 2022 | 基于图神经网络的协同过滤设计空间研究
专知会员服务
36+阅读 · 2022年1月3日
【NeurIPS 2021】基于次模优化的规则学习算法框架
专知会员服务
33+阅读 · 2021年11月30日
专知会员服务
31+阅读 · 2021年7月25日
专知会员服务
28+阅读 · 2021年6月7日
专知会员服务
30+阅读 · 2021年2月7日
专知会员服务
47+阅读 · 2020年10月20日
相关资讯
基于机器学习的自动化网络流量分析
CCF计算机安全专委会
4+阅读 · 2022年4月8日
SIGIR2021 | 基于排序的推荐系统度量优化新视角
机器学习与推荐算法
1+阅读 · 2021年12月6日
一文速览机器学习的类别
极市平台
0+阅读 · 2021年10月31日
如何衡量目标检测模型的优劣
极市平台
1+阅读 · 2021年10月17日
常用的模型集成方法介绍:bagging、boosting 、stacking
如何理解模型的过拟合与欠拟合,以及如何解决?
七月在线实验室
12+阅读 · 2019年4月23日
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
7+阅读 · 2009年12月31日
微信扫码咨询专知VIP会员