【博士论文】众包数据库关键技术研究

2020 年 12 月 12 日 专知

来自清华大学柴成亮的博士论文,入选2020年度“CCF优秀博士学位论文奖”初评名单!

https://www.ccf.org.cn/Focus/2020-12-03/717578.shtml


众包数据库关键技术研究


众包通过整合计算机和互联⽹⼤众来完成机器难以单独处理的任务,其主要 包含三部分,任务发布者、众包平台和众包⼯⼈。传统众包技术中,三者的交互流 程过于复杂,导致任务发布者⽆法很好地管理任务。因此,众包数据库应运⽽⽣, 其从系统层⾯出发整合三者之间复杂的交互流程,使得任务发布者可以通过描述 性语⾔轻松利⽤⼯⼈操作数据,降低了众包的使⽤门槛。本⽂主要的内容如下:


1. 众包数据库 CDB:为解决众包平台难使⽤、众包任务难优化、众包⼯⼈ 质量难控制等问题,需要通过数据库的思想来封装众包任务处理的流程。与传统 数据库不同的是,众包数据库的难点不仅在于解决单⼀⽬标优化问题 (仅优化代 价),更重要的是建⽴细粒度的查询优化模型,实现代价、质量和延迟的多⽬标优 化。因此,本⽂提出了⼀种新型的众包数据库系统 CDB 。不同于传统的树优化模 型,CDB ⾸次提出利⽤图模型来进⾏细粒度查询优化。其次,CDB 在该模型上建 ⽴统⼀的框架来进⾏多⽬标优化。该系统致⼒于帮助用户高效率、高质量、低成 本地利用众包来处理数据, 构建了一个中文众包平台 ChinaCrowd, 在华为公司落地 应用,取得了较好的经济收益。另外,为⽀持较复杂的连接操作(基于记录或者⾃ 连接)与收集操作,本⽂分别提出了以下两种算法框架对它们进⼀步优化。


2. 基于众包的连接操作:为解决现实世界中脏数据的复杂连接问题,需要引 ⼊基于众包的连接操作。其难点在于代价较⾼,⽽寻求低代价⽅案时往往带来质 量的降低。为此,本⽂提出⼀种低代价的众包实体匹配框架 Power,在保持⾼质量 的同时⼤⼤降低代价。本⽂⾸先在待连接的记录对上定义了⼀种偏序关系,然后 基于该关系对众包⼯⼈的回答进⾏推理,接下来循环提问直到所有记录对的答案 都被推理出来。该方法致力于从理论和实践两方面优化众包成本,实验表明相比 于其他方法,Power 可在节省高达 100 倍的成本下进行高质量的数据连接。


3. 基于众包的收集操作:为解决传统数据库不能处理数据库以外数据的特点, 众包数据库需要引⼊收集操作,其旨在通过众包收集数据库中缺失的实体。其难 点在于如何保证收集实体的正确性;如何尽可能收集相关领域的全部实体;如何 减少重复实体的数量以减少代价。为此,本⽂提出了基于激励机制的众包实体收 集框架 CrowdEC,其采⽤激励的⽅式⿎励⼯⼈提供不重复的实体以降低代价。该 方法致力于建立收集操作的质量评价体系,从理论上给出了收集代价的竞争比保 证,使得用户可实现低成本、高质量、高覆盖的收集。


https://www.ccf.org.cn/ccf/contentcore/resource/download?ID=143738


专知便捷查看

便捷下载,请关注专知公众号(点击上方蓝色专知关注)

  • 后台回复“众包数据库” 就可以获取【博士论文】众包数据库关键技术研究》专知下载链接

专知,专业可信的人工智能知识分发,让认知协作更快更好!欢迎注册登录专知www.zhuanzhi.ai,获取5000+AI主题干货知识资料!
欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程资料和与专家交流咨询
点击“ 阅读原文 ”,了解使用 专知 ,查看获取5000+AI主题知识资源
登录查看更多
1

相关内容

跨媒体分析与推理技术研究综述
专知会员服务
69+阅读 · 2021年3月11日
专知会员服务
111+阅读 · 2021年1月8日
专知会员服务
36+阅读 · 2020年12月22日
专知会员服务
14+阅读 · 2020年12月12日
【博士论文】搜索引擎中的实体推荐关键技术研究
专知会员服务
44+阅读 · 2020年12月9日
专知会员服务
31+阅读 · 2020年5月20日
【北航】面向自然语言处理的预训练技术研究综述
专知会员服务
112+阅读 · 2020年4月23日
知识图谱更新技术研究及其应用,复旦大学硕士论文
专知会员服务
103+阅读 · 2019年11月4日
众包数据库综述
专知
5+阅读 · 2020年5月20日
【北大】知识图谱的关键技术及其智能应用
专知
112+阅读 · 2019年9月19日
【清华大学】元知识图谱推理
专知
129+阅读 · 2019年9月2日
大数据安全技术浅析
计算机与网络安全
14+阅读 · 2019年4月24日
面向云端融合的分布式计算技术研究进展与趋势
中国计算机学会
19+阅读 · 2018年11月27日
论文动态 | 基于知识图谱的问答系统关键技术研究 #02
开放知识图谱
10+阅读 · 2017年8月6日
论文动态 | 基于知识图谱的问答系统关键技术研究 #01
开放知识图谱
16+阅读 · 2017年8月3日
Arxiv
10+阅读 · 2020年6月12日
Arxiv
4+阅读 · 2018年5月4日
VIP会员
相关VIP内容
跨媒体分析与推理技术研究综述
专知会员服务
69+阅读 · 2021年3月11日
专知会员服务
111+阅读 · 2021年1月8日
专知会员服务
36+阅读 · 2020年12月22日
专知会员服务
14+阅读 · 2020年12月12日
【博士论文】搜索引擎中的实体推荐关键技术研究
专知会员服务
44+阅读 · 2020年12月9日
专知会员服务
31+阅读 · 2020年5月20日
【北航】面向自然语言处理的预训练技术研究综述
专知会员服务
112+阅读 · 2020年4月23日
知识图谱更新技术研究及其应用,复旦大学硕士论文
专知会员服务
103+阅读 · 2019年11月4日
相关资讯
众包数据库综述
专知
5+阅读 · 2020年5月20日
【北大】知识图谱的关键技术及其智能应用
专知
112+阅读 · 2019年9月19日
【清华大学】元知识图谱推理
专知
129+阅读 · 2019年9月2日
大数据安全技术浅析
计算机与网络安全
14+阅读 · 2019年4月24日
面向云端融合的分布式计算技术研究进展与趋势
中国计算机学会
19+阅读 · 2018年11月27日
论文动态 | 基于知识图谱的问答系统关键技术研究 #02
开放知识图谱
10+阅读 · 2017年8月6日
论文动态 | 基于知识图谱的问答系统关键技术研究 #01
开放知识图谱
16+阅读 · 2017年8月3日
Top
微信扫码咨询专知VIP会员