当机器智能遇到人类计算─基于众包的分类数据挖掘技术研究 - 专知基金

会员服务 ·

0

数据挖掘 ·

2013 年 12 月 31 日

当机器智能遇到人类计算─基于众包的分类数据挖掘技术研究

国家自然科学基金

国家自然科学基金委员会

项目名称： 当机器智能遇到人类计算─基于众包的分类数据挖掘技术研究

项目编号： No.71301071

项目类型： 青年科学基金项目

立项/批准年度： 2014

项目学科： 管理科学

项目作者： 许开全

作者单位： 南京大学

项目金额： 23万元

中文摘要： 由于很多大数据是未经分类和标注的原始数据，其蕴含的丰富商业价值很难被利用。而阻碍分类挖掘技术对大数据进行分类挖掘的最大障碍是：极度缺少标注训练样本。而新的人类计算方式─众包，能进行低成本、高效率的数据标注。本课题主要探讨有效利用众包标注的数据进行分类挖掘，所要解决的理论与技术挑战，以便对大数据进行低成本、高时效的分类挖掘。本课题将研究集成众包的分类模型，来利用众包标注的不准确和冗余的训练样本，获得较好的分类性能；同时还研究集成众包的主动学习方法，来高效选择样本、标注者、标注策略，从而更有效的利用众包实现更好的分类挖掘。本研究期望丰富数据挖掘的分类模型理论和主动学习理论，并有望开拓主动学习的新方向。

中文关键词： 数据挖掘；商务智能；分类技术；众包；

英文摘要： Since most of big data is raw data, the commercial value in it cannot be utilized. The biggest obstacle to use classification technique in mining big data is: the lack of labeling data as training samples. The new human computation, crowdsourcing, can label data with very low cost and high-efficiency. This research project will explore the related theory and technical challenges when using crowdsourcing labeling data in classification, in order to mine big data with low-cost and high-efficiency. This project will study the classification model of integrating crowdsourcing, to utilize the inaccurate and redundant training samples from crowdsourcing, to achieve good performance; also the active learning method of integrating crowdsourcing will be studied, to efficiently select samples, labelers and labeling strategies, to achieve good performance. This study will enrich the theories of classification model and the active learning, and is expected to open up a new direction of active learning.

英文关键词： data mining；business intelligence；classification；crowdsourcing；

成为VIP会员查看完整内容

0

相关内容

因果推断在医药图像的应用：数据缺失和数据不匹配

因果推断在医药图像的应用：数据缺失和数据不匹配

专知会员服务

58+阅读 · 2022年4月2日

数据与机器学习，人工智能报告

数据与机器学习，人工智能报告

专知会员服务

100+阅读 · 2022年2月21日

视觉识别的无监督域适应研究综述

视觉识别的无监督域适应研究综述

专知会员服务

32+阅读 · 2021年12月17日

【博士论文】分形计算系统

【博士论文】分形计算系统

专知会员服务

37+阅读 · 2021年12月9日

远程监督关系抽取综述

专知会员服务

35+阅读 · 2021年8月19日

【ICML2021】 RSD: 一种基于几何距离的可迁移回归表征学习方法

专知会员服务

18+阅读 · 2021年7月30日

【CVPR2021】DAML：针对开放领域泛化的领域增广元学习方法

【CVPR2021】DAML：针对开放领域泛化的领域增广元学习方法

专知会员服务

20+阅读 · 2021年4月21日

基于迁移学习的细粒度实体分类方法的研究

专知会员服务

32+阅读 · 2020年9月2日

基于FPGA的机器学习硬件加速研究进展

专知会员服务

81+阅读 · 2020年6月20日

基于深度学习的多标签生成研究进展

基于深度学习的多标签生成研究进展

专知会员服务

147+阅读 · 2020年4月25日

从数据到模型：轻舟智航自动驾驶高效感知技术解读

从数据到模型：轻舟智航自动驾驶高效感知技术解读

PaperWeekly

0+阅读 · 2021年12月25日

基于知识图谱的行业问答系统搭建分几步？

基于知识图谱的行业问答系统搭建分几步？

PaperWeekly

2+阅读 · 2021年11月11日

远程监督在关系抽取中的应用

远程监督在关系抽取中的应用

深度学习自然语言处理

12+阅读 · 2020年10月26日

大数据时代小样本如何学习？看这篇最新《小样本学习方法综述》论文

大数据时代小样本如何学习？看这篇最新《小样本学习方法综述》论文

专知

127+阅读 · 2019年3月31日

论文浅尝 | 基于知识图谱嵌入的 Bootstrapping 实体对齐方法

论文浅尝 | 基于知识图谱嵌入的 Bootstrapping 实体对齐方法

开放知识图谱

17+阅读 · 2019年1月5日

【智能医疗】【知识图谱】中文电子病历命名实体识别的主动学习方法 | 病历智能分析系统的研究与实现 | 临床路径知识建模研究

【智能医疗】【知识图谱】中文电子病历命名实体识别的主动学习方法 | 病历智能分析系统的研究与实现 | 临床路径知识建模研究

产业智能官

29+阅读 · 2017年12月10日

【迁移学习】中科院计算所王晋东：迁移学习的发展和现状

【迁移学习】中科院计算所王晋东：迁移学习的发展和现状

产业智能官

23+阅读 · 2017年11月21日

【知识图谱】医学知识图谱构建技术与研究进展

【知识图谱】医学知识图谱构建技术与研究进展

产业智能官

44+阅读 · 2017年11月16日

医学知识图谱构建技术与研究进展

医学知识图谱构建技术与研究进展

人工智能学家

18+阅读 · 2017年11月11日

【直观详解】支持向量机SVM

【直观详解】支持向量机SVM

机器学习研究会

18+阅读 · 2017年11月8日

有效融合多源异构数据的集成分类器研究

国家自然科学基金

5+阅读 · 2015年12月31日

基于高斯过程模型的多示例多标记学习算法研究

国家自然科学基金

13+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

面向多类图像分类的众包主动学习方法研究

国家自然科学基金

2+阅读 · 2013年12月31日

基于视觉动力神经场的机器学习方法研究

国家自然科学基金

2+阅读 · 2013年12月31日

面向海量数据语义标注众包的任务管理方法研究

国家自然科学基金

1+阅读 · 2013年12月31日

中文领域本体学习及半自动构建方法研究

国家自然科学基金

3+阅读 · 2012年12月31日

基于深层学习的汉语句法语义分析研究

国家自然科学基金

3+阅读 · 2012年12月31日

基于扰动的文字识别理论和关键技术研究

国家自然科学基金

0+阅读 · 2011年12月31日

基于主动学习的半监督领域本体自动构建

国家自然科学基金

4+阅读 · 2009年12月31日

A Deeper Look into Aleatoric and Epistemic Uncertainty Disentanglement

Arxiv

0+阅读 · 2022年4月20日

Reconstruction-Aware Prior Distillation for Semi-supervised Point Cloud Completion

Arxiv

1+阅读 · 2022年4月20日

Stochastic Galerkin method for cloud simulation. Part II: a fully random Navier-Stokes-cloud model

Arxiv

0+阅读 · 2022年4月19日

Quantum Bayesian Statistical Inference

Arxiv

1+阅读 · 2022年4月19日

Bootstrapped Representation Learning for Skeleton-Based Action Recognition

Arxiv

0+阅读 · 2022年4月19日

A new family of APN functions from biprojective polynomials

Arxiv

0+阅读 · 2022年4月15日

Causality and Generalizability: Identifiability and Learning Methods

Arxiv

12+阅读 · 2021年10月4日

Few-shot acoustic event detection via meta-learning

Arxiv

26+阅读 · 2020年2月21日

A Survey on Causal Inference

Arxiv

112+阅读 · 2020年2月5日

Learning Conceptual-Contexual Embeddings for Medical Text

Arxiv

27+阅读 · 2019年8月16日

阅读: 0 点赞: 0

小贴士

登录享主题订阅及个性化推荐

相关主题

热门VIP内容

开通专知VIP会员享更多权益服务

面向性能、成本效益、云边隐私与可信性的大小语言模型协作综述

乌克兰太空研究（2022-2024年） | 176页

【CMU博士论文】大型语言模型的隐性特性

国防领域人工智能走向何方？

相关VIP内容

因果推断在医药图像的应用：数据缺失和数据不匹配

因果推断在医药图像的应用：数据缺失和数据不匹配

专知会员服务

58+阅读 · 2022年4月2日

数据与机器学习，人工智能报告

数据与机器学习，人工智能报告

专知会员服务

100+阅读 · 2022年2月21日

视觉识别的无监督域适应研究综述

视觉识别的无监督域适应研究综述

专知会员服务

32+阅读 · 2021年12月17日

【博士论文】分形计算系统

【博士论文】分形计算系统

专知会员服务

37+阅读 · 2021年12月9日

远程监督关系抽取综述

专知会员服务

35+阅读 · 2021年8月19日

【ICML2021】 RSD: 一种基于几何距离的可迁移回归表征学习方法

专知会员服务

18+阅读 · 2021年7月30日

【CVPR2021】DAML：针对开放领域泛化的领域增广元学习方法

【CVPR2021】DAML：针对开放领域泛化的领域增广元学习方法

专知会员服务

20+阅读 · 2021年4月21日

基于迁移学习的细粒度实体分类方法的研究

专知会员服务

32+阅读 · 2020年9月2日

基于FPGA的机器学习硬件加速研究进展

专知会员服务

81+阅读 · 2020年6月20日

基于深度学习的多标签生成研究进展

基于深度学习的多标签生成研究进展

专知会员服务

147+阅读 · 2020年4月25日

相关资讯

从数据到模型：轻舟智航自动驾驶高效感知技术解读

从数据到模型：轻舟智航自动驾驶高效感知技术解读

PaperWeekly

0+阅读 · 2021年12月25日

基于知识图谱的行业问答系统搭建分几步？

基于知识图谱的行业问答系统搭建分几步？

PaperWeekly

2+阅读 · 2021年11月11日

远程监督在关系抽取中的应用

远程监督在关系抽取中的应用

深度学习自然语言处理

12+阅读 · 2020年10月26日

大数据时代小样本如何学习？看这篇最新《小样本学习方法综述》论文

大数据时代小样本如何学习？看这篇最新《小样本学习方法综述》论文

专知

127+阅读 · 2019年3月31日

论文浅尝 | 基于知识图谱嵌入的 Bootstrapping 实体对齐方法

论文浅尝 | 基于知识图谱嵌入的 Bootstrapping 实体对齐方法

开放知识图谱

17+阅读 · 2019年1月5日

【智能医疗】【知识图谱】中文电子病历命名实体识别的主动学习方法 | 病历智能分析系统的研究与实现 | 临床路径知识建模研究

【智能医疗】【知识图谱】中文电子病历命名实体识别的主动学习方法 | 病历智能分析系统的研究与实现 | 临床路径知识建模研究

产业智能官

29+阅读 · 2017年12月10日

【迁移学习】中科院计算所王晋东：迁移学习的发展和现状

【迁移学习】中科院计算所王晋东：迁移学习的发展和现状

产业智能官

23+阅读 · 2017年11月21日

【知识图谱】医学知识图谱构建技术与研究进展

【知识图谱】医学知识图谱构建技术与研究进展

产业智能官

44+阅读 · 2017年11月16日

医学知识图谱构建技术与研究进展

医学知识图谱构建技术与研究进展

人工智能学家

18+阅读 · 2017年11月11日

【直观详解】支持向量机SVM

【直观详解】支持向量机SVM

机器学习研究会

18+阅读 · 2017年11月8日

相关基金

有效融合多源异构数据的集成分类器研究

国家自然科学基金

5+阅读 · 2015年12月31日

基于高斯过程模型的多示例多标记学习算法研究

国家自然科学基金

13+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

面向多类图像分类的众包主动学习方法研究

国家自然科学基金

2+阅读 · 2013年12月31日

基于视觉动力神经场的机器学习方法研究

国家自然科学基金

2+阅读 · 2013年12月31日

面向海量数据语义标注众包的任务管理方法研究

国家自然科学基金

1+阅读 · 2013年12月31日

中文领域本体学习及半自动构建方法研究

国家自然科学基金

3+阅读 · 2012年12月31日

基于深层学习的汉语句法语义分析研究

国家自然科学基金

3+阅读 · 2012年12月31日

基于扰动的文字识别理论和关键技术研究

国家自然科学基金

0+阅读 · 2011年12月31日

基于主动学习的半监督领域本体自动构建

国家自然科学基金

4+阅读 · 2009年12月31日

相关论文

A Deeper Look into Aleatoric and Epistemic Uncertainty Disentanglement

Arxiv

0+阅读 · 2022年4月20日

Reconstruction-Aware Prior Distillation for Semi-supervised Point Cloud Completion

Arxiv

1+阅读 · 2022年4月20日

Stochastic Galerkin method for cloud simulation. Part II: a fully random Navier-Stokes-cloud model

Arxiv

0+阅读 · 2022年4月19日

Quantum Bayesian Statistical Inference

Arxiv

1+阅读 · 2022年4月19日

Bootstrapped Representation Learning for Skeleton-Based Action Recognition

Arxiv

0+阅读 · 2022年4月19日

A new family of APN functions from biprojective polynomials

Arxiv

0+阅读 · 2022年4月15日

Causality and Generalizability: Identifiability and Learning Methods

Arxiv

12+阅读 · 2021年10月4日

Few-shot acoustic event detection via meta-learning

Arxiv

26+阅读 · 2020年2月21日

A Survey on Causal Inference

Arxiv

112+阅读 · 2020年2月5日

Learning Conceptual-Contexual Embeddings for Medical Text

Arxiv

27+阅读 · 2019年8月16日

微信扫码咨询专知VIP会员