Approximate nearest neighbor search (ANNS) at billion scale is fundamentally an out-of-core problem: vectors and indexes live on SSD, so performance is dominated by I/O rather than compute. Under skewed semantic embeddings, existing out-of-core systems break down: a uniform local index mismatches cluster scales, static routing misguides queries and inflates the number of probed partitions, and pruning is incomplete at the cluster level and lossy at the vector level, triggering "fetch-to-discard" reranking on raw vectors. We present OrchANN, an out-of-core ANNS engine that uses an I/O orchestration model for unified I/O governance along the route-access-verify pipeline. OrchANN selects a heterogeneous local index per cluster via offline auto-profiling, maintains a query-aware in-memory navigation graph that adapts to skewed workloads, and applies multi-level pruning with geometric bounds to filter both clusters and vectors before issuing SSD reads. Across five standard datasets under strict out-of-core constraints, OrchANN outperforms four baselines including DiskANN, Starling, SPANN, and PipeANN in both QPS and latency while reducing SSD accesses. Furthermore, OrchANN delivers up to 17.2x higher QPS and 25.0x lower latency than competing systems without sacrificing accuracy.


翻译:十亿规模近似最近邻搜索本质上是一个外存问题:向量与索引存储于固态硬盘,因此性能主要受I/O而非计算制约。在偏斜语义嵌入场景下,现有外存系统面临失效:均匀的局部索引与聚类尺度失配,静态路由机制误导查询并扩大探查分区数量,而剪枝操作在聚类层级不完整且在向量层级存在信息损失,最终触发原始向量的“读取后丢弃”重排序过程。本文提出OrchANN——一种采用I/O编排模型的外存近似最近邻搜索引擎,该模型沿路由-访问-验证流程实现统一I/O治理。OrchANN通过离线自动性能剖析为每个聚类选择异构局部索引,维护可适应偏斜工作负载的查询感知内存导航图,并应用具备几何边界约束的多级剪枝机制,在发起固态硬盘读取前同时过滤聚类与向量。在严格外存约束下的五个标准数据集测试中,OrchANN在QPS与延迟两项指标上均优于包括DiskANN、Starling、SPANN及PipeANN在内的四个基线系统,同时显著减少固态硬盘访问量。此外,OrchANN在保持精度的前提下,相较竞争系统可实现最高17.2倍的QPS提升与25.0倍的延迟降低。

0
下载
关闭预览

相关内容

【SIGIR2024】生成检索作即多向量密集检索
专知会员服务
23+阅读 · 2024年4月5日
【ICCV2023】保留模态结构改进多模态学习
专知会员服务
31+阅读 · 2023年8月28日
【NeurIPS2019】图变换网络:Graph Transformer Network
LibRec 每周算法:LDA主题模型
LibRec智能推荐
29+阅读 · 2017年12月4日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员