论文题目:Learning Discrete Representations via Constrained Clustering for Effective and Efficient Dense Retrieval

作 者:詹靖涛,毛佳昕,刘奕群,郭嘉丰,张敏,马少平

论文概述:虽然向量检索已经取得了不错的排序性能,但是已有的向量检索模型的存储开销和时间开销都很大。这主要是由于大多数工作都需要存储稠密向量并且进行近邻搜索(NNS)。因此,我们提出一个新颖的检索模型RepCONC。RepCONC通过有约束聚类(Constrained Clustering)来端到端地联合优化dual-encoders和Product Quantization来学习离散的表示。在检索时,RepCONC使用近似近邻搜索(ANNS)来进行高效地检索。有约束聚类是对量化过程的建模,它约束稠密向量被均匀地分配到不同的量化中心。我们理论上说明了该约束的重要性,使用最优传输理论推导出了近似的解,并用到了模型训练中。我们在MS MARCO段落检索和文档检索数据集上进行实验。实验结果表明,RepCONC在排序性能、存储效率、时间效率上都显著优于各种不同的检索模型。

https://www.zhuanzhi.ai/paper/659f0487020b0896c2f07694994a4aee

成为VIP会员查看完整内容
26

相关内容

WSDM 2022 | 基于图神经网络的协同过滤设计空间研究
专知会员服务
36+阅读 · 2022年1月3日
专知会员服务
21+阅读 · 2021年6月26日
专知会员服务
14+阅读 · 2021年6月26日
专知会员服务
23+阅读 · 2021年6月8日
专知会员服务
18+阅读 · 2020年9月2日
【SIGIR2021】使用难样本优化向量检索模型
专知
4+阅读 · 2021年4月22日
基于深度元学习的因果推断新方法
图与推荐
10+阅读 · 2020年7月21日
快速且不需要超参的无监督聚类方法
极市平台
3+阅读 · 2019年12月9日
vae学习笔记
CreateAMind
22+阅读 · 2019年6月18日
基于二进制哈希编码快速学习的快速图像检索
极市平台
12+阅读 · 2018年5月17日
基于聚类和决策树的链路预测方法
计算机研究与发展
8+阅读 · 2017年8月25日
Learning Embedding Adaptation for Few-Shot Learning
Arxiv
16+阅读 · 2018年12月10日
Neural Architecture Optimization
Arxiv
8+阅读 · 2018年9月5日
VIP会员
相关VIP内容
WSDM 2022 | 基于图神经网络的协同过滤设计空间研究
专知会员服务
36+阅读 · 2022年1月3日
专知会员服务
21+阅读 · 2021年6月26日
专知会员服务
14+阅读 · 2021年6月26日
专知会员服务
23+阅读 · 2021年6月8日
专知会员服务
18+阅读 · 2020年9月2日
相关资讯
【SIGIR2021】使用难样本优化向量检索模型
专知
4+阅读 · 2021年4月22日
基于深度元学习的因果推断新方法
图与推荐
10+阅读 · 2020年7月21日
快速且不需要超参的无监督聚类方法
极市平台
3+阅读 · 2019年12月9日
vae学习笔记
CreateAMind
22+阅读 · 2019年6月18日
基于二进制哈希编码快速学习的快速图像检索
极市平台
12+阅读 · 2018年5月17日
基于聚类和决策树的链路预测方法
计算机研究与发展
8+阅读 · 2017年8月25日
微信扫码咨询专知VIP会员