Large-scale vector databases for approximate nearest neighbor (ANN) search typically store a quantized dataset in main memory for fast access, and full precision data on remote disk. State-of-the-art ANN quantization methods are highly data-dependent, rendering them unable to handle point insertions and deletions. This either leads to degraded search quality over time, or forces costly global rebuilds of the entire search index. In this paper, we formally study data-dependent quantization under streaming dataset updates. We formulate a computation model of limited remote disk access and define a dynamic consistency property that guarantees freshness under updates. We use it to obtain the following results: Theoretically, we prove that static data-dependent quantization can be made dynamic with bounded disk I/O per update while retaining formal accuracy guarantees for ANN search. Algorithmically, we develop a practical data-dependent quantization method which is provably dynamically consistent, adapting itself to the dataset as it evolves over time. Our experiments show that the method outperforms baselines in large-scale nearest neighbor search quantization under streaming updates.


翻译:用于近似最近邻搜索的大规模向量数据库通常将量化数据集存储在内存中以实现快速访问,而将全精度数据存储在远程磁盘上。最先进的近似最近邻量化方法高度依赖于数据,导致其无法处理点的插入和删除操作。这要么会随着时间的推移导致搜索质量下降,要么迫使对整个搜索索引进行代价高昂的全局重建。在本文中,我们正式研究了流式数据集更新下的数据依赖量化问题。我们构建了一个有限远程磁盘访问的计算模型,并定义了一个动态一致性属性,以保证更新下的数据新鲜度。我们利用它获得了以下结果:理论上,我们证明了静态数据依赖量化可以通过每次更新有界的磁盘I/O实现动态化,同时为近似最近邻搜索保留形式化的精度保证。算法上,我们开发了一种实用的数据依赖量化方法,该方法被证明是动态一致的,能够随着数据集随时间演变而自适应调整。我们的实验表明,在流式更新下的大规模最近邻搜索量化任务中,该方法优于基线模型。

0
下载
关闭预览

相关内容

互联网
【ICCV2023】保留模态结构改进多模态学习
专知会员服务
31+阅读 · 2023年8月28日
【CVPR2023】正则化二阶影响的持续学习
专知会员服务
19+阅读 · 2023年4月22日
【CVPR2022】MSDN: 零样本学习的互语义蒸馏网络
专知会员服务
21+阅读 · 2022年3月8日
LibRec 每周算法:LDA主题模型
LibRec智能推荐
29+阅读 · 2017年12月4日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Arxiv
0+阅读 · 12月21日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员