海量众包数据管理的关键技术 - 专知基金

会员服务 ·

1

海量数据管理 · 众包数据 · 查询处理 · 个性化检索 · 数据分析 ·

2014 年 12 月 31 日

海量众包数据管理的关键技术

国家自然科学基金

国家自然科学基金委员会

项目名称： 海量众包数据管理的关键技术

项目编号： No.61472141

项目类型： 面上项目

立项/批准年度： 2015

项目学科： 自动化技术、计算机技术

项目作者： 王晓玲

作者单位： 华东师范大学

项目金额： 80万元

中文摘要： 众包（例如亚马逊的AMT）作为一种新兴的商业模式，通过在线社区的形式，寻求新数据或新观点。众包数据是对DBMS 数据的补充，如何将封闭世界（DBMS 建立的前提）与开发世界（众包数据的来源）结合起来，通过众包数据扩大DBMS中数据的广度和深度，是当前的研究热点。然而，众包应用所产生的大数据,具有不完整性、主观性、噪音干扰等特点，加剧了数据管理的复杂性和难度。本课题面向从实际应用中所萃取的关于众包数据管理的基础研究问题。我们拟从分析DB-hard问题（需要理解和主观分析的数据）入手，以关系-众包数据引擎为核心，探索海量众包数据管理中的理论与关键技术。研究内容包括：众包任务的建模与组织、众包数据的查询与分析、自适应的个性化搜索、在线检测等技术，为新型的众包应用提供数据管理的理论基础和技术。并开发实现面向MOOC应用的众包数据管理平台的原型系统，探索具有自主知识产权的工具栈，支撑现实应用。

中文关键词： 海量数据管理；众包数据；查询处理；个性化检索；数据分析

英文摘要： CrowdSourcing is a new business model, and it is the practice of obtaining needed services, ideas, or content by soliciting contributions from a large group of people, and especially from an online community, rather than from traditional employees or suppliers. Amazon AMT platform is the examples of crowdsourcing applications. Crowd data is a typical big data, which is more subjective and noisy. So it is very difficult to conduct data management and process. However, crowd data is very helpful and useful for DBMS, how to combine the DBMS's closed-world and Crowd's open-world is the key in recent study. This project is based on the analysis of DB-hard problem, including missing data and subjective analysis. The goal is to explore relational-crowd data engine according to the data quality and data analysis. The topics include data model, query and analysis, personalized search, online detection, optimization for crowd data and task schedule strategy. Our goal is to provide new solutions and techniques for DB-hard problem by taking advantage of crowd data. A prototype for MOOC application will be implemented to verify our methods and support real applications.

英文关键词： Massive Data Management;Crowd Data;Query Processing;Personalized Search;Data Analysis

成为VIP会员查看完整内容

2

相关内容

海量数据管理

海量数据管理

空间数据智能：概念、技术与挑战

空间数据智能：概念、技术与挑战

专知会员服务

92+阅读 · 2022年2月3日

UIUC韩家炜：从海量非结构化文本中挖掘结构化知识

UIUC韩家炜：从海量非结构化文本中挖掘结构化知识

专知会员服务

98+阅读 · 2021年12月30日

【博士论文】大数据相似查询关键技术研究

【博士论文】大数据相似查询关键技术研究

专知会员服务

24+阅读 · 2021年12月2日

SIGMOD 2021最佳论文奖出炉，MIT等获数据管理最佳论文，苹果获得工业最佳论文

专知会员服务

19+阅读 · 2021年6月24日

【清华大学柴成亮博士论文】众包数据库关键技术研究

专知会员服务

15+阅读 · 2020年12月12日

面向AI的数据管理技术综述

专知会员服务

51+阅读 · 2020年11月20日

【ISWC2020】如何高效地构建大规模知识图谱？102页ppt

【ISWC2020】如何高效地构建大规模知识图谱？102页ppt

专知会员服务

71+阅读 · 2020年11月7日

面向 AI 的数据管理技术综述

专知会员服务

47+阅读 · 2020年8月20日

商业数据分析，39页ppt

商业数据分析，39页ppt

专知会员服务

165+阅读 · 2020年6月2日

【人大】大规模知识图谱补全技术的研究进展

【人大】大规模知识图谱补全技术的研究进展

专知会员服务

87+阅读 · 2020年5月2日

空间数据智能：概念、技术与挑战

空间数据智能：概念、技术与挑战

专知

9+阅读 · 2022年2月4日

UIUC韩家炜：从海量非结构化文本中挖掘结构化知识

UIUC韩家炜：从海量非结构化文本中挖掘结构化知识

专知

6+阅读 · 2021年12月30日

大数据团队热招 | 邀你携手打造数据未来

大数据团队热招 | 邀你携手打造数据未来

微软招聘

0+阅读 · 2021年12月9日

【博士论文】大数据相似查询关键技术研究

【博士论文】大数据相似查询关键技术研究

专知

0+阅读 · 2021年12月2日

基于知识图谱的行业问答系统搭建分几步？

基于知识图谱的行业问答系统搭建分几步？

PaperWeekly

2+阅读 · 2021年11月11日

【数字孪生】数字孪生是工业互联网关键技术和重要场景

【数字孪生】数字孪生是工业互联网关键技术和重要场景

产业智能官

39+阅读 · 2019年4月9日

一种关键字提取新方法

一种关键字提取新方法

1号机器人网

21+阅读 · 2018年11月15日

【大数据】海量数据分析能力形成和大数据关键技术

【大数据】海量数据分析能力形成和大数据关键技术

产业智能官

17+阅读 · 2018年10月29日

【知识图谱】医学知识图谱构建技术与研究进展

【知识图谱】医学知识图谱构建技术与研究进展

产业智能官

44+阅读 · 2017年11月16日

【知识图谱】中文知识图谱构建方法研究

【知识图谱】中文知识图谱构建方法研究

产业智能官

99+阅读 · 2017年10月26日

云计算环境下基于图模型的海量RDF数据管理关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

多租户数据管理关键技术研究

国家自然科学基金

6+阅读 · 2015年12月31日

大规模模糊RDF数据管理关键技术研究

国家自然科学基金

9+阅读 · 2015年12月31日

面向大规模知识图谱的查询处理关键技术研究

国家自然科学基金

18+阅读 · 2014年12月31日

海量RDF数据探索式搜索关键技术与系统研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向海量数据语义标注众包的任务管理方法研究

国家自然科学基金

1+阅读 · 2013年12月31日

视频复杂语义分析关键技术研究

国家自然科学基金

0+阅读 · 2012年12月31日

云计算环境下海量RDF数据管理系统核心技术研究

国家自然科学基金

0+阅读 · 2011年12月31日

可扩展的高效XML数据管理关键技术研究

国家自然科学基金

0+阅读 · 2011年12月31日

海量位置数据管理的基础理论与关键技术

国家自然科学基金

1+阅读 · 2011年12月31日

A Sound Up-to-$n$,$δ$ Bisimilarity for PCTL

Arxiv

0+阅读 · 2022年4月20日

An unsupervised approach for semantic place annotation of trajectories based on the prior probability

Arxiv

0+阅读 · 2022年4月20日

A Unified Approach for Multi-Scale Synchronous Correlation Search in Big Time Series -- Full Version

Arxiv

0+阅读 · 2022年4月19日

A comparison of different atmospheric turbulence simulation methods for image restoration

A comparison of different atmospheric turbulence simulation methods for image restoration

Arxiv

1+阅读 · 2022年4月19日

M2TR: Multi-modal Multi-scale Transformers for Deepfake Detection

Arxiv

0+阅读 · 2022年4月19日

A Taxonomy of Error Sources in HPC I/O Machine Learning Models

Arxiv

1+阅读 · 2022年4月18日

What If: Generating Code to Answer Simulation Questions

Arxiv

0+阅读 · 2022年4月16日

Performance and Construction of Polar Codes: The Perspective of Bit Error Probability

Arxiv

0+阅读 · 2022年4月15日

OntoZSL: Ontology-enhanced Zero-shot Learning

Arxiv

17+阅读 · 2021年2月15日

DeepSeek: Content Based Image Search & Retrieval

Arxiv

13+阅读 · 2018年1月11日

阅读: 0 点赞: 0

小贴士

登录享主题订阅及个性化推荐

相关主题

海量数据管理

个性化检索

热门VIP内容

开通专知VIP会员享更多权益服务

前沿人工智能趋势报告（Frontier AI Trends Report）

【AAAI2026】善始则事半功倍：基于前缀优化的大语言模型推理强化学习

Andrej Karpathy：2025 年 LLM 年度回顾（2025 LLM Year in Review）

音退化问题：基于输入操控的鲁棒语音转换综述

相关VIP内容

空间数据智能：概念、技术与挑战

空间数据智能：概念、技术与挑战

专知会员服务

92+阅读 · 2022年2月3日

UIUC韩家炜：从海量非结构化文本中挖掘结构化知识

UIUC韩家炜：从海量非结构化文本中挖掘结构化知识

专知会员服务

98+阅读 · 2021年12月30日

【博士论文】大数据相似查询关键技术研究

【博士论文】大数据相似查询关键技术研究

专知会员服务

24+阅读 · 2021年12月2日

SIGMOD 2021最佳论文奖出炉，MIT等获数据管理最佳论文，苹果获得工业最佳论文

专知会员服务

19+阅读 · 2021年6月24日

【清华大学柴成亮博士论文】众包数据库关键技术研究

专知会员服务

15+阅读 · 2020年12月12日

面向AI的数据管理技术综述

专知会员服务

51+阅读 · 2020年11月20日

【ISWC2020】如何高效地构建大规模知识图谱？102页ppt

【ISWC2020】如何高效地构建大规模知识图谱？102页ppt

专知会员服务

71+阅读 · 2020年11月7日

面向 AI 的数据管理技术综述

专知会员服务

47+阅读 · 2020年8月20日

商业数据分析，39页ppt

商业数据分析，39页ppt

专知会员服务

165+阅读 · 2020年6月2日

【人大】大规模知识图谱补全技术的研究进展

【人大】大规模知识图谱补全技术的研究进展

专知会员服务

87+阅读 · 2020年5月2日

相关资讯

空间数据智能：概念、技术与挑战

空间数据智能：概念、技术与挑战

专知

9+阅读 · 2022年2月4日

UIUC韩家炜：从海量非结构化文本中挖掘结构化知识

UIUC韩家炜：从海量非结构化文本中挖掘结构化知识

专知

6+阅读 · 2021年12月30日

大数据团队热招 | 邀你携手打造数据未来

大数据团队热招 | 邀你携手打造数据未来

微软招聘

0+阅读 · 2021年12月9日

【博士论文】大数据相似查询关键技术研究

【博士论文】大数据相似查询关键技术研究

专知

0+阅读 · 2021年12月2日

基于知识图谱的行业问答系统搭建分几步？

基于知识图谱的行业问答系统搭建分几步？

PaperWeekly

2+阅读 · 2021年11月11日

【数字孪生】数字孪生是工业互联网关键技术和重要场景

【数字孪生】数字孪生是工业互联网关键技术和重要场景

产业智能官

39+阅读 · 2019年4月9日

一种关键字提取新方法

一种关键字提取新方法

1号机器人网

21+阅读 · 2018年11月15日

【大数据】海量数据分析能力形成和大数据关键技术

【大数据】海量数据分析能力形成和大数据关键技术

产业智能官

17+阅读 · 2018年10月29日

【知识图谱】医学知识图谱构建技术与研究进展

【知识图谱】医学知识图谱构建技术与研究进展

产业智能官

44+阅读 · 2017年11月16日

【知识图谱】中文知识图谱构建方法研究

【知识图谱】中文知识图谱构建方法研究

产业智能官

99+阅读 · 2017年10月26日

相关基金

云计算环境下基于图模型的海量RDF数据管理关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

多租户数据管理关键技术研究

国家自然科学基金

6+阅读 · 2015年12月31日

大规模模糊RDF数据管理关键技术研究

国家自然科学基金

9+阅读 · 2015年12月31日

面向大规模知识图谱的查询处理关键技术研究

国家自然科学基金

18+阅读 · 2014年12月31日

海量RDF数据探索式搜索关键技术与系统研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向海量数据语义标注众包的任务管理方法研究

国家自然科学基金

1+阅读 · 2013年12月31日

视频复杂语义分析关键技术研究

国家自然科学基金

0+阅读 · 2012年12月31日

云计算环境下海量RDF数据管理系统核心技术研究

国家自然科学基金

0+阅读 · 2011年12月31日

可扩展的高效XML数据管理关键技术研究

国家自然科学基金

0+阅读 · 2011年12月31日

海量位置数据管理的基础理论与关键技术

国家自然科学基金

1+阅读 · 2011年12月31日

相关论文

A Sound Up-to-$n$,$δ$ Bisimilarity for PCTL

Arxiv

0+阅读 · 2022年4月20日

An unsupervised approach for semantic place annotation of trajectories based on the prior probability

Arxiv

0+阅读 · 2022年4月20日

A Unified Approach for Multi-Scale Synchronous Correlation Search in Big Time Series -- Full Version

Arxiv

0+阅读 · 2022年4月19日

A comparison of different atmospheric turbulence simulation methods for image restoration

A comparison of different atmospheric turbulence simulation methods for image restoration

Arxiv

1+阅读 · 2022年4月19日

M2TR: Multi-modal Multi-scale Transformers for Deepfake Detection

Arxiv

0+阅读 · 2022年4月19日

A Taxonomy of Error Sources in HPC I/O Machine Learning Models

Arxiv

1+阅读 · 2022年4月18日

What If: Generating Code to Answer Simulation Questions

Arxiv

0+阅读 · 2022年4月16日

Performance and Construction of Polar Codes: The Perspective of Bit Error Probability

Arxiv

0+阅读 · 2022年4月15日

OntoZSL: Ontology-enhanced Zero-shot Learning

Arxiv

17+阅读 · 2021年2月15日

DeepSeek: Content Based Image Search & Retrieval

Arxiv

13+阅读 · 2018年1月11日

微信扫码咨询专知VIP会员