Text retrieval using dense embeddings generated from deep neural models is called "dense passage retrieval". Dense passage retrieval systems normally deploy a deep neural model followed by an approximate nearest neighbor (ANN) search module. The model generates text embeddings, which are then indexed by the ANN module. With the increasing data scale, the ANN module unavoidably becomes the bottleneck on efficiency, because of its linear or sublinear time complexity with data scale. An alternative is the learned index which has a theoretically constant time complexity. But most of the existing learned indexes are designed for low dimensional data. Thus they are not suitable for dense passage retrieval tasks with high-dimensional dense embeddings. We propose LIDER, an efficient high-dimensional Learned Index for large-scale DEnse passage Retrieval. LIDER has a clustering-based hierarchical architecture formed by two layers of core models. As the basic unit of LIDER to index and search data, each core model includes an adapted recursive model index (RMI) and a dimension reduction component which consists of an extended SortingKeys-LSH (SK-LSH) and a key re-scaling module. The dimension reduction component reduces the high-dimensional dense embeddings into one-dimensional keys and sorts them in a specific order, which are then used by the RMI. And the RMI consists of multiple simple linear regression models that make fast prediction in only O(1) time. We successfully optimize and combine SK-LSH and RMI together into the core model, and organize multiple core models into a two-layer structure based on a clustering-based partitioning of the whole data space. Experiments show that LIDER has a higher search speed with high retrieval quality comparing to the state-of-the-art ANN indexes commonly used in dense passage retrieval. Furthermore, LIDER has a better capability of speed-quality trade-off.
翻译:使用深神经模型生成的密集嵌入器,使用深神经模型生成的密集嵌入器进行感密的检索。 感密通道检索系统通常会部署深神经模型, 并配有近近邻(ANN) 搜索模块。 模型会生成文本嵌入器, 然后由 ANN 模块进行索引。 随着数据规模的扩大, ANN模块不可避免地成为效率的瓶颈, 因为它的线性或亚线性时间复杂性与数据规模。 另一种办法是学习的指数, 它在理论上具有恒定的时间复杂性。 但大部分现有的已学指数是为低维数据设计的。 因此, 它们不适合由高密度的远近邻(ANNNNN) 搜索任务。 我们建议 LIDER, 一个高效的多维化的多维化指数, 由两层核心模型组成, 由 IMDER 基本单元组成, 由 R-R-LIS- R- R- R- R- R- R- R- R- R- R- R- R- R- R- R- R- R- R- R- R- R- R- MI 高级 流 流流流流 和 流流流- 流- 流- 和 核心 核心 将一个 的快速化、 和 直流- 和 核心 直流- 流化、 核心 核心 将一个 和 直流- 系统- 系统- 、 、 直流- 、 、 、 流化、 流化、 流化、 流化、 、 、 、 、 流化、 、 流化、 、 、 、 直流、 、 、 流- 直、 、 、 直、 、 流- 、 、 、 直、 、 、 、 直、 、 、 、 流- R- 流- 流- 流- 流- 流- 流- 流- 流- 流- 、 、 、 流- 、 、 、 、 流- 流- 流- 流- 、 流- 流- 流- 流- 、 、 、 流-