There is an increasing adoption of machine learning for encoding data into vectors to serve online recommendation and search use cases. As a result, recent data management systems propose augmenting query processing with online vector similarity search. In this work, we explore vector similarity search in the context of Knowledge Graphs (KGs). Motivated by the tasks of finding related KG queries and entities for past KG query workloads, we focus on hybrid vector similarity search (hybrid queries for short) where part of the query corresponds to vector similarity search and part of the query corresponds to predicates over relational attributes associated with the underlying data vectors. For example, given past KG queries for a song entity, we want to construct new queries for new song entities whose vector representations are close to the vector representation of the entity in the past KG query. But entities in a KG also have non-vector attributes such as a song associated with an artist, a genre, and a release date. Therefore, suggested entities must also satisfy query predicates over non-vector attributes beyond a vector-based similarity predicate. While these tasks are central to KGs, our contributions are generally applicable to hybrid queries. In contrast to prior works that optimize online queries, we focus on enabling efficient batch processing of past hybrid query workloads. We present our system, HQI, for high-throughput batch processing of hybrid queries. We introduce a workload-aware vector data partitioning scheme to tailor the vector index layout to the given workload and describe a multi-query optimization technique to reduce the overhead of vector similarity computations. We evaluate our methods on industrial workloads and demonstrate that HQI yields a 31x improvement in throughput for finding related KG queries compared to existing hybrid query processing approaches.


翻译:机器学习逐渐流行于将数据编码为向量以服务于在线推荐和搜索用例,因此最近的数据管理系统提出了在查询处理中增加在线向量相似度搜索的方法。在这项工作中,我们探索了知识图谱(KG)上的向量相似度搜索。受到查找过去KG查询工作负载相关查询和实体的任务的启发,我们专注于混合向量相似度搜索(简称混合查询),其中查询的部分对应于向量相似度搜索,部分对应于关于关联属性的谓词,这些属性与底层数据向量相关联。例如,给定一个歌曲实体的过去KG查询,我们想构建新的查询,以查找与过去KG查询中实体的向量表示相似的新歌曲实体。但是KG中的实体也具有非向量属性,例如与艺术家相关的歌曲、流派和发布日期。因此,建议的实体必须满足超出基于向量的相似性谓词的非向量属性查询谓词。虽然这些任务对于KGs是中心的,但我们的贡献通常适用于混合查询。与优化在线查询的先前工作不同,我们专注于实现过去混合查询工作负载的高吞吐量批处理。我们介绍了一种基于工作负载感知的向量数据分区方案,以将向量索引布局量身定制为给定的工作负载,并描述了一种多查询优化技术,以减少向量相似性计算的开销。我们在工业负载上评估了我们的方法,并展示了HQI相对于现有混合查询处理方法在找到相关的KG查询方面提高了31倍的吞吐量。

0
下载
关闭预览

相关内容

【AAAI2020知识图谱论文概述】Knowledge Graphs @ AAAI 2020
专知会员服务
134+阅读 · 2020年2月13日
【新书】深度学习搜索,Deep Learning for Search,附327页pdf
专知会员服务
213+阅读 · 2020年1月13日
NeurlPS2022推荐系统论文集锦
机器学习与推荐算法
1+阅读 · 2022年9月26日
最新10篇对比学习推荐前沿工作
机器学习与推荐算法
2+阅读 · 2022年9月14日
征稿 | International Joint Conference on Knowledge Graphs (IJCKG)
开放知识图谱
2+阅读 · 2022年5月20日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
3+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
6+阅读 · 2010年12月31日
Arxiv
0+阅读 · 2023年5月23日
Arxiv
23+阅读 · 2022年2月24日
Arxiv
12+阅读 · 2020年6月20日
Arxiv
15+阅读 · 2019年11月26日
Efficiently Embedding Dynamic Knowledge Graphs
Arxiv
14+阅读 · 2019年10月15日
VIP会员
相关VIP内容
【AAAI2020知识图谱论文概述】Knowledge Graphs @ AAAI 2020
专知会员服务
134+阅读 · 2020年2月13日
【新书】深度学习搜索,Deep Learning for Search,附327页pdf
专知会员服务
213+阅读 · 2020年1月13日
相关基金
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
3+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
6+阅读 · 2010年12月31日
Top
微信扫码咨询专知VIP会员