自然语言理解(NLU)的最新进展正在推动信息检索(IR)的快速发展,这在很大程度上要归功于对文档排序的深层语言模型(LMs)的微调。虽然非常有效,但是基于这些LMs的排序模型比以前的方法增加了几个数量级的计算成本,特别是因为它们必须通过一个庞大的神经网络来为每个查询文档对提供数据,从而计算单个相关分数。为了解决这个问题,我们提出了一种新的排序模型ColBERT,它采用深度LMs(特别是BERT)来进行有效的检索。ColBERT引入了一种后期交互体系结构,该体系结构使用BERT独立地对查询和文档进行编码,然后使用一种廉价但功能强大的交互步骤来建模它们的细粒度相似性。通过延迟并保留这种细粒度交互,ColBERT可以利用深度LMs的表达能力,同时获得离线预先计算文档表示的能力,这大大加快了查询处理的速度。除了降低通过传统模型检索的文档重新排序的成本外,ColBERT的修剪友好交互机制还支持利用向量相似度索引来直接从大型文档集合进行端到端检索。我们使用两个最近的文章搜索数据集对ColBERT进行了广泛的评估。结果表明,ColBERT的有效性与现有的基于bert的模型相比是有竞争力的(并且优于每个非bert基线),同时执行两个数量级的速度更快,每个查询需要减少四个数量级的错误。

成为VIP会员查看完整内容
43

相关内容

信息检索( Information Retrieval )指信息按一定的方式组织起来,并根据信息用户的需要找出有关的信息的过程和技术。信息检索的目标:准确、及时、全面的获取所需信息。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
【KDD2020-清华大学】图对比编码的图神经网络预训练
专知会员服务
44+阅读 · 2020年6月18日
【SIGIR2020】用于冷启动推荐的内容感知神经哈希
专知会员服务
22+阅读 · 2020年6月2日
【SIGIR2020】LightGCN: 简化和增强图卷积网络推荐
专知会员服务
72+阅读 · 2020年6月1日
【ACL2020-伯克利】预训练Transformer提高分布外鲁棒性
专知会员服务
19+阅读 · 2020年4月14日
【WWW2020-微软】理解用户行为用于文档推荐
专知会员服务
35+阅读 · 2020年4月5日
媲美人类对话水平!微软最新NLP模型3项评分全面超越人类水平!
机器学习算法与Python学习
8+阅读 · 2019年5月4日
进一步改进GPT和BERT:使用Transformer的语言模型
机器之心
16+阅读 · 2019年5月1日
中文版-BERT-预训练的深度双向Transformer语言模型-详细介绍
BERT霸榜问答任务,谷歌新基准模型缩小AI与人类差距50%
未来产业促进会
4+阅读 · 2019年1月31日
Arxiv
3+阅读 · 2019年9月5日
How to Fine-Tune BERT for Text Classification?
Arxiv
13+阅读 · 2019年5月14日
VIP会员
微信扫码咨询专知VIP会员