自然语言理解(NLU)的最新进展正在推动信息检索(IR)的快速发展,这在很大程度上要归功于对文档排序的深层语言模型(LMs)的微调。虽然非常有效,但是基于这些LMs的排序模型比以前的方法增加了几个数量级的计算成本,特别是因为它们必须通过一个庞大的神经网络来为每个查询文档对提供数据,从而计算单个相关分数。为了解决这个问题,我们提出了一种新的排序模型ColBERT,它采用深度LMs(特别是BERT)来进行有效的检索。ColBERT引入了一种后期交互体系结构,该体系结构使用BERT独立地对查询和文档进行编码,然后使用一种廉价但功能强大的交互步骤来建模它们的细粒度相似性。通过延迟并保留这种细粒度交互,ColBERT可以利用深度LMs的表达能力,同时获得离线预先计算文档表示的能力,这大大加快了查询处理的速度。除了降低通过传统模型检索的文档重新排序的成本外,ColBERT的修剪友好交互机制还支持利用向量相似度索引来直接从大型文档集合进行端到端检索。我们使用两个最近的文章搜索数据集对ColBERT进行了广泛的评估。结果表明,ColBERT的有效性与现有的基于bert的模型相比是有竞争力的(并且优于每个非bert基线),同时执行两个数量级的速度更快,每个查询需要减少四个数量级的错误。