SPANN: Highly-efficient Billion-scale Approximate Nearest Neighbor Search
论文摘要:随着数据规模的快速增长,基于内存的向量搜索面临着海量且非常昂贵的内存需求,人们对小内存-大硬盘混合型向量近似最近邻搜索的需求也越来越迫切。因此,研究员们提出了一种非常简单且高效的基于倒排索引思想的内存-硬盘混合型索引和搜索方案 SPANN,有效地解决了倒排索引方法中的三个会导致高延迟或者低召回的难题。实验结果显示,SPANN 在多个上亿量级数据集上都能取得两倍多的加速达到 90% 召回率,其查询延迟能够有效地控制在一毫秒左右。同时, SPANN 的设计能够有效地被扩展到分布式搜索中限制每个查询的资源开销和延迟大小,从而实现高可扩展性。目前 SPANN 已经被部署在了微软必应搜索中支持百亿量级的高性能向量近似最近邻搜索。