SPANN: Highly-efficient Billion-scale Approximate Nearest Neighbor Search
论文摘要:
随着数据规模的快速增长,基于内存的向量搜索面临着海量且非常昂贵的内存需求,人们对小内存-大硬盘混合型向量近似最近邻搜索的需求也越来越迫切。因此,研究员们提出了一种非常简单且高效的基于倒排索引思想的内存-硬盘混合型索引和搜索方案 SPANN,有效地解决了倒排索引方法中的三个会导致高延迟或者低召回的难题。实验结果显示,SPANN 在多个上亿量级数据集上都能取得两倍多的加速达到 90% 召回率,其查询延迟能够有效地控制在一毫秒左右。同时, SPANN 的设计能够有效地被扩展到分布式搜索中限制每个查询的资源开销和延迟大小,从而实现高可扩展性。目前 SPANN 已经被部署在了微软必应搜索中支持百亿量级的高性能向量近似最近邻搜索。
https://arxiv.org/abs/2111.08566
专知便捷查看
便捷下载,请关注专知公众号(点击上方蓝色专知关注)
专知,专业可信的人工智能知识分发
,让认知协作更快更好!欢迎注册登录专知www.zhuanzhi.ai,获取5000+AI主题干货知识资料!
欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程资料和与专家交流咨询!
点击“
阅读原文
”,了解使用
专知
,查看获取5000+AI主题知识资源