项目名称: 面向大数据的一致性分类及应用研究

项目编号: No.71201004

项目类型: 青年科学基金项目

立项/批准年度: 2013

项目学科: 管理科学与工程

项目作者: 熊海涛

作者单位: 北京工商大学

项目金额: 19万元

中文摘要: 分类是数据挖掘这一新兴交叉学科的核心领域,并应用于商务智能等众多重要领域。研究表明,传统分类算法由于只返回单次分类结果往往容易得到劣解。集成学习方法通过组合多分类结果在一定程度上解决了这个问题,但没有从效用最优上进行考虑;同时还无法解决大数据中诸如样本不一致等问题。有鉴于此,本项目研究应用于大数据的多分类结果效用最优整合问题即"一致性分类"问题,其核心在于从模式空间中找到一个与多个基础分类分量最为相似的分类结果,其优点在于结果的鲁棒性、准确性以及对大数据的适应性,其难点在于问题本身是一个NP完全的组合优化问题。具体而言,本项目首先建立一致性分类的理论基础,然后系统地研究一致性分类的效用函数选择问题和基础分类分量的生成策略,接着构建一致性分类算法框架,最后开发可用于并行计算的系统原型,在商务实践领域的大数据上做深入的应用研究。本项目有望对一致性分类的理论和应用实践提供重要的补充和推动作用。

中文关键词: 集成学习;大数据;生成策略;一致性;复杂数据

英文摘要: Classification is a core field of data mining which is a rising interdisciplinary. It has been applied to many important areas such as business intelligence and so on. Researches show that tradition classification algorithms produce only one solution, which is more likely to be an inferior one. Through combination of different classification results, ensemble learning can solve this problem to a certain extent. However, the utility optimization is not considered. In addition, some specific problems inherent with big data, like inconsistent data, can not be handled either. To meet this critical challenge, this proposal aims to get an optimal integral result with maximal utility from big data's mutil-classifications, which can be defined as a consensus classification problem. It focuses on the way to find a single result from the pattern space which agrees as much as possible with existing basic mutil-classifications. Consensus classification has been widely recognized that has merits in robustness, accuracy, applicability with big data. But it has been proofed to be a NP-complete problem. Specifically, this proposal at first will establish the theoretical foundation of consensus classification, and then systematically study the choice of utility function and the generation strategy of basic classifications. After

英文关键词: Ensemble Learning;Big Data;Generation Scheme;Consistency;Complex Data

成为VIP会员查看完整内容
1

相关内容

集成学习是使用一系列学习器进行学习,并使用某种规则把各个学习结果进行整合从而获得比单个学习器更好的学习效果的一种机器学习方法。
《面向制造业的数字化仿真分类》国家标准意见稿
专知会员服务
65+阅读 · 2022年4月13日
【NeurIPS2021】由相似性迁移的弱样本细粒度分类
专知会员服务
20+阅读 · 2021年11月11日
【2021新书】面向健康的机器学习与人工智能,428页pdf
专知会员服务
133+阅读 · 2021年5月21日
专知会员服务
53+阅读 · 2021年4月3日
【斯坦福&Google】面向机器人的机器学习,63页PPT
专知会员服务
24+阅读 · 2019年11月19日
新书《面向机器学习和数据分析的特征工程》,419页pdf
专知会员服务
142+阅读 · 2019年10月10日
领域自适应研究综述
专知
6+阅读 · 2021年5月5日
笨笨功能更新啦!基于BERT的FAQ语义检索
哈工大SCIR
2+阅读 · 2021年4月29日
支持个性化学习的行为大数据可视化研究
目标跟踪算法分类
大数据技术
13+阅读 · 2018年9月17日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
Arxiv
0+阅读 · 2022年4月24日
Simplifying Graph Convolutional Networks
Arxiv
12+阅读 · 2019年2月19日
小贴士
相关VIP内容
《面向制造业的数字化仿真分类》国家标准意见稿
专知会员服务
65+阅读 · 2022年4月13日
【NeurIPS2021】由相似性迁移的弱样本细粒度分类
专知会员服务
20+阅读 · 2021年11月11日
【2021新书】面向健康的机器学习与人工智能,428页pdf
专知会员服务
133+阅读 · 2021年5月21日
专知会员服务
53+阅读 · 2021年4月3日
【斯坦福&Google】面向机器人的机器学习,63页PPT
专知会员服务
24+阅读 · 2019年11月19日
新书《面向机器学习和数据分析的特征工程》,419页pdf
专知会员服务
142+阅读 · 2019年10月10日
相关基金
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
微信扫码咨询专知VIP会员