项目名称: 当机器智能遇到人类计算─基于众包的分类数据挖掘技术研究

项目编号: No.71301071

项目类型: 青年科学基金项目

立项/批准年度: 2014

项目学科: 管理科学

项目作者: 许开全

作者单位: 南京大学

项目金额: 23万元

中文摘要: 由于很多大数据是未经分类和标注的原始数据,其蕴含的丰富商业价值很难被利用。而阻碍分类挖掘技术对大数据进行分类挖掘的最大障碍是:极度缺少标注训练样本。而新的人类计算方式─众包,能进行低成本、高效率的数据标注。本课题主要探讨有效利用众包标注的数据进行分类挖掘,所要解决的理论与技术挑战,以便对大数据进行低成本、高时效的分类挖掘。本课题将研究集成众包的分类模型,来利用众包标注的不准确和冗余的训练样本,获得较好的分类性能;同时还研究集成众包的主动学习方法,来高效选择样本、标注者、标注策略,从而更有效的利用众包实现更好的分类挖掘。本研究期望丰富数据挖掘的分类模型理论和主动学习理论,并有望开拓主动学习的新方向。

中文关键词: 数据挖掘;商务智能;分类技术;众包;

英文摘要: Since most of big data is raw data, the commercial value in it cannot be utilized. The biggest obstacle to use classification technique in mining big data is: the lack of labeling data as training samples. The new human computation, crowdsourcing, can label data with very low cost and high-efficiency. This research project will explore the related theory and technical challenges when using crowdsourcing labeling data in classification, in order to mine big data with low-cost and high-efficiency. This project will study the classification model of integrating crowdsourcing, to utilize the inaccurate and redundant training samples from crowdsourcing, to achieve good performance; also the active learning method of integrating crowdsourcing will be studied, to efficiently select samples, labelers and labeling strategies, to achieve good performance. This study will enrich the theories of classification model and the active learning, and is expected to open up a new direction of active learning.

英文关键词: data mining;business intelligence;classification;crowdsourcing;

成为VIP会员查看完整内容
0

相关内容

因果推断在医药图像的应用:数据缺失和数据不匹配
专知会员服务
57+阅读 · 2022年4月2日
数据与机器学习,人工智能报告
专知会员服务
98+阅读 · 2022年2月21日
视觉识别的无监督域适应研究综述
专知会员服务
30+阅读 · 2021年12月17日
【博士论文】分形计算系统
专知会员服务
33+阅读 · 2021年12月9日
专知会员服务
34+阅读 · 2021年8月19日
【CVPR2021】DAML:针对开放领域泛化的领域增广元学习方法
专知会员服务
31+阅读 · 2020年9月2日
专知会员服务
80+阅读 · 2020年6月20日
基于深度学习的多标签生成研究进展
专知会员服务
142+阅读 · 2020年4月25日
基于知识图谱的行业问答系统搭建分几步?
PaperWeekly
2+阅读 · 2021年11月11日
远程监督在关系抽取中的应用
深度学习自然语言处理
12+阅读 · 2020年10月26日
【知识图谱】医学知识图谱构建技术与研究进展
产业智能官
44+阅读 · 2017年11月16日
医学知识图谱构建技术与研究进展
人工智能学家
17+阅读 · 2017年11月11日
【直观详解】支持向量机SVM
机器学习研究会
18+阅读 · 2017年11月8日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
4+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2022年4月19日
Arxiv
26+阅读 · 2020年2月21日
Arxiv
110+阅读 · 2020年2月5日
小贴士
相关主题
相关VIP内容
因果推断在医药图像的应用:数据缺失和数据不匹配
专知会员服务
57+阅读 · 2022年4月2日
数据与机器学习,人工智能报告
专知会员服务
98+阅读 · 2022年2月21日
视觉识别的无监督域适应研究综述
专知会员服务
30+阅读 · 2021年12月17日
【博士论文】分形计算系统
专知会员服务
33+阅读 · 2021年12月9日
专知会员服务
34+阅读 · 2021年8月19日
【CVPR2021】DAML:针对开放领域泛化的领域增广元学习方法
专知会员服务
31+阅读 · 2020年9月2日
专知会员服务
80+阅读 · 2020年6月20日
基于深度学习的多标签生成研究进展
专知会员服务
142+阅读 · 2020年4月25日
相关资讯
基于知识图谱的行业问答系统搭建分几步?
PaperWeekly
2+阅读 · 2021年11月11日
远程监督在关系抽取中的应用
深度学习自然语言处理
12+阅读 · 2020年10月26日
【知识图谱】医学知识图谱构建技术与研究进展
产业智能官
44+阅读 · 2017年11月16日
医学知识图谱构建技术与研究进展
人工智能学家
17+阅读 · 2017年11月11日
【直观详解】支持向量机SVM
机器学习研究会
18+阅读 · 2017年11月8日
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
4+阅读 · 2009年12月31日
微信扫码咨询专知VIP会员