SPANN: Highly-efficient Billion-scale Approximate Nearest Neighbor Search

论文摘要:随着数据规模的快速增长,基于内存的向量搜索面临着海量且非常昂贵的内存需求,人们对小内存-大硬盘混合型向量近似最近邻搜索的需求也越来越迫切。因此,研究员们提出了一种非常简单且高效的基于倒排索引思想的内存-硬盘混合型索引和搜索方案 SPANN,有效地解决了倒排索引方法中的三个会导致高延迟或者低召回的难题。实验结果显示,SPANN 在多个上亿量级数据集上都能取得两倍多的加速达到 90% 召回率,其查询延迟能够有效地控制在一毫秒左右。同时, SPANN 的设计能够有效地被扩展到分布式搜索中限制每个查询的资源开销和延迟大小,从而实现高可扩展性。目前 SPANN 已经被部署在了微软必应搜索中支持百亿量级的高性能向量近似最近邻搜索。

https://arxiv.org/abs/2111.08566

成为VIP会员查看完整内容
10

相关内容

WSDM 2022 | 基于图神经网络的协同过滤设计空间研究
专知会员服务
36+阅读 · 2022年1月3日
【WSDM2022】基于约束聚类学习离散表示的高效密集检索
专知会员服务
26+阅读 · 2021年11月16日
专知会员服务
22+阅读 · 2021年6月23日
专知会员服务
11+阅读 · 2021年6月20日
专知会员服务
43+阅读 · 2020年9月25日
海量文本求topk相似:faiss库初探
AINLP
19+阅读 · 2020年5月29日
携程用ClickHouse轻松玩转每天十亿级数据更新
DBAplus社群
11+阅读 · 2019年8月6日
ICML 2019 | 第四范式提出快速张量补全新方法
PaperWeekly
4+阅读 · 2019年6月19日
谷歌提出MorphNet:网络规模更小、速度更快!
全球人工智能
4+阅读 · 2019年4月20日
基于二进制哈希编码快速学习的快速图像检索
炼数成金订阅号
8+阅读 · 2018年5月17日
Moloch - 开源大规模网络数据捕获数据分析系统
黑客工具箱
4+阅读 · 2018年4月4日
【智能商务】海量商品查找利器—苏宁搜索系统
产业智能官
5+阅读 · 2017年12月1日
Arxiv
8+阅读 · 2020年10月9日
A survey on deep hashing for image retrieval
Arxiv
14+阅读 · 2020年6月10日
Arxiv
6+阅读 · 2020年3月16日
Fast AutoAugment
Arxiv
5+阅读 · 2019年5月1日
Arxiv
7+阅读 · 2018年3月22日
VIP会员
相关VIP内容
相关资讯
微信扫码咨询专知VIP会员