We present a new algorithm for the approximate near neighbor problem that combines classical ideas from group testing with locality-sensitive hashing (LSH). We reduce the near neighbor search problem to a group testing problem by designating neighbors as "positives," non-neighbors as "negatives," and approximate membership queries as group tests. We instantiate this framework using distance-sensitive Bloom Filters to Identify Near-Neighbor Groups (FLINNG). We prove that FLINNG has sub-linear query time and show that our algorithm comes with a variety of practical advantages. For example, FLINNG can be constructed in a single pass through the data, consists entirely of efficient integer operations, and does not require any distance computations. We conduct large-scale experiments on high-dimensional search tasks such as genome search, URL similarity search, and embedding search over the massive YFCC100M dataset. In our comparison with leading algorithms such as HNSW and FAISS, we find that FLINNG can provide up to a 10x query speedup with substantially smaller indexing time and memory.


翻译:我们为近邻的近邻问题提出了一个新的算法,它结合了从群体测试到对地点敏感的散列(LSH)的古典想法。我们通过将邻居指定为“阳性”,将非邻居指定为“负性”,将会员询问大致定为“负性”以及将会员问询作为集体测试。我们使用远程敏感的闪烁过滤器对这个框架进行即时应用,以识别近邻群体(FLINNG) 。我们证明FLINNG有亚线查询时间,并表明我们的算法具有各种实际优势。例如,通过数据,可以通过一个单一的传票构建FLINNG,完全由有效的整数操作组成,不需要任何距离计算。我们在基因组搜索、URm相似性搜索和嵌入大型 YFCC100M 数据集中进行大规模搜索等高度的实验。我们与HNSW和FISS相比,我们发现FLINNG可以提供10x查询速度,而索引时间和记忆要小得多。

0
下载
关闭预览

相关内容

Group一直是研究计算机支持的合作工作、人机交互、计算机支持的协作学习和社会技术研究的主要场所。该会议将社会科学、计算机科学、工程、设计、价值观以及其他与小组工作相关的多个不同主题的工作结合起来,并进行了广泛的概念化。官网链接:https://group.acm.org/conferences/group20/
专知会员服务
50+阅读 · 2020年12月14日
专知会员服务
17+阅读 · 2020年9月6日
深度学习搜索,Exploring Deep Learning for Search
专知会员服务
57+阅读 · 2020年5月9日
机器学习速查手册,135页pdf
专知会员服务
338+阅读 · 2020年3月15日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
机器学习入门的经验与建议
专知会员服务
92+阅读 · 2019年10月10日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
103+阅读 · 2019年10月9日
已删除
将门创投
3+阅读 · 2019年1月15日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
Arxiv
6+阅读 · 2021年6月24日
Learning from Few Samples: A Survey
Arxiv
77+阅读 · 2020年7月30日
Arxiv
8+阅读 · 2020年6月15日
Arxiv
7+阅读 · 2018年3月22日
Arxiv
3+阅读 · 2018年2月24日
VIP会员
相关VIP内容
专知会员服务
50+阅读 · 2020年12月14日
专知会员服务
17+阅读 · 2020年9月6日
深度学习搜索,Exploring Deep Learning for Search
专知会员服务
57+阅读 · 2020年5月9日
机器学习速查手册,135页pdf
专知会员服务
338+阅读 · 2020年3月15日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
机器学习入门的经验与建议
专知会员服务
92+阅读 · 2019年10月10日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
103+阅读 · 2019年10月9日
相关资讯
已删除
将门创投
3+阅读 · 2019年1月15日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
相关论文
Top
微信扫码咨询专知VIP会员