大数据相似查询关键技术研究

传统的数据库针对数据表的查询条件主要包括数值范围查询、点查询以及模 糊匹配查询,但是这些查询只能支持准确查询。相似查询可以根据指定的相似函 数(比如杰卡德相似度)查询数据集中的数据,具体包括基于阈值的查询、TopK 查 询两种,其中每种查询又包括相似选择和连接两种常见算子。由于相似查询广泛 应用于海量相似文本搜索、相似图片搜索、结构化实体去重以及多源数据融合等 领域,所以高效的相似查询是最近国内外研究的重点。针对相似查询的关键技术, 论文的主要研究目标和贡献如下:

  1. 基于分布式内存索引的相似查询:论文介绍了一款基于分布式内存的相似 查询处理系统 Dima 。Dima 扩展了 SQL 语法来支持四种核心相似查询操作,以便 让用户能够调用这些相似查询开展复杂数据分析任务。文章提出负载均衡感知的 相似片段分布式索引来避免昂贵的数据传输并且缓解长尾效应,进而提高整体相 似查询性能。由于 Spark 是被广泛使用的分布式内存计算系统,因此 Dima 无缝集 成在 Spark 内核中。Dima 是第一个支持对大数据集进行复杂相似查询的成熟分布 式内存系统。实验结果表明 Dima 比最新的方法性能高出 1-3 个数量级。

  2. 基于神经网络的相似查询基数估计:传统数据库查询优化质量很大程度上 依赖于查询中间结果基数估计的准确度。而在相似查询系统中,基数估计对于复 合谓词顺序选择以及相似连接顺序选择也是至关重要的。但是,针对相似查询的 基数估计无法使用直方图技术,采样技术在高维环境下也会带来较大误差。本文 提出使用神经网络来解决相似查询的基数估计。本文提出两种策略来提高基数估 计准确度并且减少训练集规模:查询分片和数据分片。实验显示本文提出的方法 能够高效学习到高维数据的距离分布并且能够对相似查询进行准确的基数估计。

  3. 相似实体融合规则生成:作为相似查询的重要应用,多源结构化数据中的 实体融合技术被学术界广泛研究。实体融合的重要步骤包括实体分块(Blocking), 匹配(Entity Matching)与实体合并(Entity Consolidation),这些步骤依赖于实体 对之间的相似度特征以及实体分块规则,其中用户的参与是不可缺少的,比如训 练实体匹配模型的训练集生成、数据转换规则的确定等。本文设计了几种用户交 互的实体融合问题,并且提出一个问题调度框架,这个框架能够根据每种问题的 收益/代价比选择不同种类的问题进行交叉询问来提高实体合并的准确度。

成为VIP会员查看完整内容
23

相关内容

「大规模图神经网络系统」最新2022综述:从算法到系统
专知会员服务
113+阅读 · 2022年1月14日
【博士论文】推荐系统多行为建模与隐私保护研究
专知会员服务
52+阅读 · 2021年11月27日
开放领域知识图谱问答研究综述
专知会员服务
61+阅读 · 2021年10月30日
专知会员服务
62+阅读 · 2021年4月11日
专知会员服务
36+阅读 · 2020年12月22日
专知会员服务
14+阅读 · 2020年12月12日
【博士论文】搜索引擎中的实体推荐关键技术研究
专知会员服务
44+阅读 · 2020年12月9日
技术动态 | 知识图谱上的实体链接
开放知识图谱
69+阅读 · 2019年9月8日
论文浅尝 | 基于复杂查询图编码的知识库问答
开放知识图谱
17+阅读 · 2019年7月22日
论文浅尝 | 为基于知识库的问答构建形式查询生成
开放知识图谱
10+阅读 · 2019年3月8日
论文浅尝 | 基于知识库的类型实体和关系的联合抽取
开放知识图谱
35+阅读 · 2018年12月9日
论文浅尝 | 基于Freebase的问答研究
开放知识图谱
5+阅读 · 2018年3月26日
论文动态 | 基于知识图谱的问答系统关键技术研究 #03
开放知识图谱
8+阅读 · 2017年8月8日
论文动态 | 基于知识图谱的问答系统关键技术研究 #02
开放知识图谱
10+阅读 · 2017年8月6日
论文动态 | 基于知识图谱的问答系统关键技术研究 #01
开放知识图谱
16+阅读 · 2017年8月3日
论文动态 | 基于知识图谱的问答系统关键技术研究 #04
开放知识图谱
10+阅读 · 2017年7月9日
Arxiv
23+阅读 · 2021年10月11日
Arxiv
10+阅读 · 2021年3月30日
Meta Learning for Causal Direction
Arxiv
5+阅读 · 2020年7月6日
Arxiv
14+阅读 · 2019年11月26日
Arxiv
4+阅读 · 2019年11月25日
Arxiv
3+阅读 · 2019年9月5日
Few-shot Learning: A Survey
Arxiv
362+阅读 · 2019年4月10日
VIP会员
相关VIP内容
「大规模图神经网络系统」最新2022综述:从算法到系统
专知会员服务
113+阅读 · 2022年1月14日
【博士论文】推荐系统多行为建模与隐私保护研究
专知会员服务
52+阅读 · 2021年11月27日
开放领域知识图谱问答研究综述
专知会员服务
61+阅读 · 2021年10月30日
专知会员服务
62+阅读 · 2021年4月11日
专知会员服务
36+阅读 · 2020年12月22日
专知会员服务
14+阅读 · 2020年12月12日
【博士论文】搜索引擎中的实体推荐关键技术研究
专知会员服务
44+阅读 · 2020年12月9日
相关资讯
技术动态 | 知识图谱上的实体链接
开放知识图谱
69+阅读 · 2019年9月8日
论文浅尝 | 基于复杂查询图编码的知识库问答
开放知识图谱
17+阅读 · 2019年7月22日
论文浅尝 | 为基于知识库的问答构建形式查询生成
开放知识图谱
10+阅读 · 2019年3月8日
论文浅尝 | 基于知识库的类型实体和关系的联合抽取
开放知识图谱
35+阅读 · 2018年12月9日
论文浅尝 | 基于Freebase的问答研究
开放知识图谱
5+阅读 · 2018年3月26日
论文动态 | 基于知识图谱的问答系统关键技术研究 #03
开放知识图谱
8+阅读 · 2017年8月8日
论文动态 | 基于知识图谱的问答系统关键技术研究 #02
开放知识图谱
10+阅读 · 2017年8月6日
论文动态 | 基于知识图谱的问答系统关键技术研究 #01
开放知识图谱
16+阅读 · 2017年8月3日
论文动态 | 基于知识图谱的问答系统关键技术研究 #04
开放知识图谱
10+阅读 · 2017年7月9日
相关论文
Arxiv
23+阅读 · 2021年10月11日
Arxiv
10+阅读 · 2021年3月30日
Meta Learning for Causal Direction
Arxiv
5+阅读 · 2020年7月6日
Arxiv
14+阅读 · 2019年11月26日
Arxiv
4+阅读 · 2019年11月25日
Arxiv
3+阅读 · 2019年9月5日
Few-shot Learning: A Survey
Arxiv
362+阅读 · 2019年4月10日
微信扫码咨询专知VIP会员