论文概述:尽管向量检索(Dense Retrieval)已经取得了不错的排序性能,之前的相关研究通常采用暴力搜索。在实际的网页搜索场景中,暴力搜索会带来大量存储和时间开销,因此几乎是无法接受的。为了解决这样的问题,我们提出JPQ。JPQ使用乘积量化(Product Quantization)来压缩存储并提升检索速度。为了保证检索性能不因为量化而损失,JPQ端到端地联合优化查询编码器和乘积量化的参数。我们在两个公开的大规模检索数据集上评测JPQ。实验结果表明,在不同设置下,JPQ都显著优于现有的向量压缩方法。与之前使用暴力搜索的向量检索模型相比,JPQ几乎不会影响排序性能,并且把索引大小压缩了30倍,提高了10倍的CPU检索速度和2倍的GPU检索速度。
https://www.zhuanzhi.ai/paper/51bd03ce5ed783b843f6c5077dd28527