Dense Retrieval (DR) has achieved state-of-the-art first-stage ranking effectiveness. However, the efficiency of most existing DR models is limited by the large memory cost of storing dense vectors and the time-consuming nearest neighbor search (NNS) in vector space. Therefore, we present RepCONC, a novel retrieval model that learns discrete Representations via CONstrained Clustering. RepCONC jointly trains dual-encoders and the Product Quantization (PQ) method to learn discrete document representations and enables fast approximate NNS with compact indexes. It models quantization as a constrained clustering process, which requires the document embeddings to be uniformly clustered around the quantization centroids and supports end-to-end optimization of the quantization method and dual-encoders. We theoretically demonstrate the importance of the uniform clustering constraint in RepCONC and derive an efficient approximate solution for constrained clustering by reducing it to an instance of the optimal transport problem. Besides constrained clustering, RepCONC further adopts a vector-based inverted file system (IVF) to support highly efficient vector search on CPUs. Extensive experiments on two popular ad-hoc retrieval benchmarks show that RepCONC achieves better ranking effectiveness than competitive vector quantization baselines under different compression ratio settings. It also substantially outperforms a wide range of existing retrieval models in terms of retrieval effectiveness, memory efficiency, and time efficiency.


翻译:RepCONC,这是一个通过CONCONC 学习离散代表的新型检索模型。RepCONCONC公司联合培训了双向编码器和产品量化(PQ)方法,以学习离散文件表示方式,使NNS能够以紧凑指数快速接近NNS。它模拟了限制组合过程的量化,这要求将文件嵌入在四分制中间统一组合,支持四分制方法的端对端优化和双向相近方。我们从理论上展示了CONC公司统一组合限制的重要性,通过将它降低到最佳运输问题的例子,为限制组合提供了高效的近似值解决方案。除了限制的组合外,ReconC还进一步采用了基于矢量的反向档案系统(IVF),以限制的组合过程为基础,要求将文件嵌入的特性统一集中在四分解式中间体中间体的近距离搜索中,支持四分级制的量化方法的端对QOF标准进行高效率程度的升级,并在CPU公司现有基准下,在高端级标准下进行高端级的矢量级的矢量级的矢量级检索。

6
下载
关闭预览

相关内容

【WSDM2022】基于约束聚类学习离散表示的高效密集检索
专知会员服务
26+阅读 · 2021年11月16日
【AAAI2021】对比聚类,Contrastive Clustering
专知会员服务
76+阅读 · 2021年1月30日
【Google】监督对比学习,Supervised Contrastive Learning
专知会员服务
74+阅读 · 2020年4月24日
FlowQA: Grasping Flow in History for Conversational Machine Comprehension
专知会员服务
28+阅读 · 2019年10月18日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
58+阅读 · 2019年10月17日
强化学习三篇论文 避免遗忘等
CreateAMind
19+阅读 · 2019年5月24日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
【SIGIR2018】五篇对抗训练文章
专知
12+阅读 · 2018年7月9日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Arxiv
6+阅读 · 2021年6月24日
Arxiv
31+阅读 · 2020年9月21日
Contrastive Representation Distillation
Arxiv
5+阅读 · 2019年10月23日
Arxiv
3+阅读 · 2019年8月19日
VIP会员
Top
微信扫码咨询专知VIP会员