Nearest neighbor (NN) search is inherently computationally expensive in high-dimensional spaces due to the curse of dimensionality. As a well-known solution, locality-sensitive hashing (LSH) is able to answer c-approximate NN (c-ANN) queries in sublinear time with constant probability. Existing LSH methods focus mainly on building hash bucket-based indexing such that the candidate points can be retrieved quickly. However, existing coarse-grained structures fail to offer accurate distance estimation for candidate points, which translates into additional computational overhead when having to examine unnecessary points. This in turn reduces the performance of query processing. In contrast, we propose a fast and accurate in-memory LSH framework, called PM-LSH, that aims to compute c-ANN queries on large-scale, high-dimensional datasets. First, we adopt a simple yet effective PM-tree to index the data points. Second, we develop a tunable confidence interval to achieve accurate distance estimation and guarantee high result quality. Third, we propose an efficient algorithm on top of the PM-tree to improve the performance of computing c-ANN queries. In addition, we extend PM-LSH to support closest pair (CP) search in high-dimensional spaces. We again adopt the PM-tree to organize the points in a lowdimensional space, and we propose a branch and bound algorithm together with a radius pruning technique to improve the performance of computing c-approximate closest pair (c-ACP) queries. Extensive experiments with real-world data offer evidence that PM-LSH is capable of outperforming existing proposals with respect to both efficiency and accuracy for both NN and CP search.


翻译:近邻( NN) 搜索在高维空间本身就具有计算成本。 由于维度的诅咒, 高维空间的搜索本身就具有计算成本。 作为一种众所周知的解决方案, 地点敏感散列( LSH) 能够以恒定的概率在亚线性时间内解答 C- 近NN( c- ANN) 质询。 现有的 LSH 方法主要侧重于构建基于散桶的索引, 这样可以快速检索候选点。 但是, 现有的粗粗粗的图像结构无法为候选人点提供准确的距离估计, 从而在检查不必要的点时会变成额外的计算间接费用。 这反过来降低了查询处理的性能。 相反, 我们提议快速准确的 LSH 框架( 称为 PM- LSH 框架), 旨在对大规模、 高维度的数据集进行计算。 首先, 我们采用简单而有效的 PM- 树来为数据点索引提供精确的准确的距离估计, 保证高质量的结果质量。 第三, 我们提议在PMCP 上的一个顶级和最精确的轨道上进行高效的算算, 我们提出一个最精确的轨道搜索。

0
下载
关闭预览

相关内容

两人亲密社交应用,官网: trypair.com/
Linux导论,Introduction to Linux,96页ppt
专知会员服务
78+阅读 · 2020年7月26日
知识图谱推理,50页ppt,Salesforce首席科学家Richard Socher
专知会员服务
108+阅读 · 2020年6月10日
因果图,Causal Graphs,52页ppt
专知会员服务
246+阅读 · 2020年4月19日
【新书】深度学习搜索,Deep Learning for Search,附327页pdf
专知会员服务
206+阅读 · 2020年1月13日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
误差反向传播——RNN
统计学习与视觉计算组
18+阅读 · 2018年9月6日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
【推荐】RNN/LSTM时序预测
机器学习研究会
25+阅读 · 2017年9月8日
【推荐】(Keras)LSTM多元时序预测教程
机器学习研究会
24+阅读 · 2017年8月14日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Hyperbolic Graph Attention Network
Arxiv
6+阅读 · 2019年12月6日
Arxiv
11+阅读 · 2019年4月15日
VIP会员
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
误差反向传播——RNN
统计学习与视觉计算组
18+阅读 · 2018年9月6日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
【推荐】RNN/LSTM时序预测
机器学习研究会
25+阅读 · 2017年9月8日
【推荐】(Keras)LSTM多元时序预测教程
机器学习研究会
24+阅读 · 2017年8月14日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员