论文题目:Learning Discrete Representations via Constrained Clustering for Effective and Efficient Dense Retrieval
作 者:詹靖涛,毛佳昕,刘奕群,郭嘉丰,张敏,马少平
论文概述:虽然向量检索已经取得了不错的排序性能,但是已有的向量检索模型的存储开销和时间开销都很大。这主要是由于大多数工作都需要存储稠密向量并且进行近邻搜索(NNS)。因此,我们提出一个新颖的检索模型RepCONC。RepCONC通过有约束聚类(Constrained Clustering)来端到端地联合优化dual-encoders和Product Quantization来学习离散的表示。在检索时,RepCONC使用近似近邻搜索(ANNS)来进行高效地检索。有约束聚类是对量化过程的建模,它约束稠密向量被均匀地分配到不同的量化中心。我们理论上说明了该约束的重要性,使用最优传输理论推导出了近似的解,并用到了模型训练中。我们在MS MARCO段落检索和文档检索数据集上进行实验。实验结果表明,RepCONC在排序性能、存储效率、时间效率上都显著优于各种不同的检索模型。
https://www.zhuanzhi.ai/paper/659f0487020b0896c2f07694994a4aee
图:RepCONC训练流程图
图:Constrained Clustering示意图
专知便捷查看
便捷下载,请关注专知公众号(点击上方蓝色专知关注)
后台回复“CEDR” 就可以获取《【WSDM2022】基于约束聚类学习离散表示的高效密集检索》专知下载链接