【SIGIR2020-斯坦福大学】一种新的又好又快的BERT类信息检索模型-ColBERT - 专知VIP

会员服务 ·

3

信息检索 · BERT · ColBERT ·

2020 年 4 月 28 日

【SIGIR2020-斯坦福大学】一种新的又好又快的BERT类信息检索模型-ColBERT

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

自然语言理解(NLU)的最新进展正在推动信息检索(IR)的快速发展，这在很大程度上要归功于对文档排序的深层语言模型(LMs)的微调。虽然非常有效，但是基于这些LMs的排序模型比以前的方法增加了几个数量级的计算成本，特别是因为它们必须通过一个庞大的神经网络来为每个查询文档对提供数据，从而计算单个相关分数。为了解决这个问题，我们提出了一种新的排序模型ColBERT，它采用深度LMs(特别是BERT)来进行有效的检索。ColBERT引入了一种后期交互体系结构，该体系结构使用BERT独立地对查询和文档进行编码，然后使用一种廉价但功能强大的交互步骤来建模它们的细粒度相似性。通过延迟并保留这种细粒度交互，ColBERT可以利用深度LMs的表达能力，同时获得离线预先计算文档表示的能力，这大大加快了查询处理的速度。除了降低通过传统模型检索的文档重新排序的成本外，ColBERT的修剪友好交互机制还支持利用向量相似度索引来直接从大型文档集合进行端到端检索。我们使用两个最近的文章搜索数据集对ColBERT进行了广泛的评估。结果表明，ColBERT的有效性与现有的基于bert的模型相比是有竞争力的(并且优于每个非bert基线)，同时执行两个数量级的速度更快，每个查询需要减少四个数量级的错误。

成为VIP会员查看完整内容

44

相关内容

信息检索

信息检索( Information Retrieval )指信息按一定的方式组织起来，并根据信息用户的需要找出有关的信息的过程和技术。信息检索的目标：准确、及时、全面的获取所需信息。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等

【KDD2020-清华大学】图对比编码的图神经网络预训练

【KDD2020-清华大学】图对比编码的图神经网络预训练

专知会员服务

46+阅读 · 2020年6月18日

【SIGIR2020】基于知识图谱的公平感知可解释推荐，Fairness-Aware Explainable Recommendation over Knowledge Graphs

【SIGIR2020】基于知识图谱的公平感知可解释推荐，Fairness-Aware Explainable Recommendation over Knowledge Graphs

专知会员服务

47+阅读 · 2020年6月3日

【SIGIR2020】用于冷启动推荐的内容感知神经哈希

【SIGIR2020】用于冷启动推荐的内容感知神经哈希

专知会员服务

23+阅读 · 2020年6月2日

【SIGIR2020】LightGCN: 简化和增强图卷积网络推荐

【SIGIR2020】LightGCN: 简化和增强图卷积网络推荐

专知会员服务

73+阅读 · 2020年6月1日

【ACL2020-MIT-韩松】用于高效自然语言处理的硬件感知Transformer

【ACL2020-MIT-韩松】用于高效自然语言处理的硬件感知Transformer

专知会员服务

24+阅读 · 2020年5月29日

【ACL2020-伯克利】预训练Transformer提高分布外鲁棒性

【ACL2020-伯克利】预训练Transformer提高分布外鲁棒性

专知会员服务

20+阅读 · 2020年4月14日

【WWW2020-微软】理解用户行为用于文档推荐

【WWW2020-微软】理解用户行为用于文档推荐

专知会员服务

36+阅读 · 2020年4月5日

【牛津DeepMind】从Word2Vec到BERT:上下文嵌入(Contextual Embeddings)综述论文

【牛津DeepMind】从Word2Vec到BERT:上下文嵌入(Contextual Embeddings)综述论文

专知会员服务

85+阅读 · 2020年3月18日

【WWW2020-推荐】医疗领域答案检索，基于上下文文档表示学习

专知会员服务

38+阅读 · 2020年2月18日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知会员服务

45+阅读 · 2020年2月12日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知

12+阅读 · 2020年2月12日

[Google]BERT压缩到7MB！最新基于最优子词和共享投影的极限语言压缩模型

[Google]BERT压缩到7MB！最新基于最优子词和共享投影的极限语言压缩模型

专知

31+阅读 · 2019年10月6日

参数少一半，效果还更好，天津大学和微软提出Transformer压缩模型

参数少一半，效果还更好，天津大学和微软提出Transformer压缩模型

机器之心

15+阅读 · 2019年7月13日

媲美人类对话水平！微软最新NLP模型3项评分全面超越人类水平！

媲美人类对话水平！微软最新NLP模型3项评分全面超越人类水平！

机器学习算法与Python学习

8+阅读 · 2019年5月4日

进一步改进GPT和BERT：使用Transformer的语言模型

进一步改进GPT和BERT：使用Transformer的语言模型

机器之心

16+阅读 · 2019年5月1日

中文版-BERT-预训练的深度双向Transformer语言模型-详细介绍

中文版-BERT-预训练的深度双向Transformer语言模型-详细介绍

深度学习与NLP

30+阅读 · 2019年3月30日

BERT霸榜问答任务，谷歌新基准模型缩小AI与人类差距50%

BERT霸榜问答任务，谷歌新基准模型缩小AI与人类差距50%

未来产业促进会

4+阅读 · 2019年1月31日

继BERT之后，这个新模型再一次在11项NLP基准上打破纪录

继BERT之后，这个新模型再一次在11项NLP基准上打破纪录

机器之心

8+阅读 · 2018年12月23日

ICLR 2018 | CMU&谷歌大脑提出新型问答模型QANet：仅使用卷积和自注意力，性能大大优于RNN

ICLR 2018 | CMU&谷歌大脑提出新型问答模型QANet：仅使用卷积和自注意力，性能大大优于RNN

机器之心

5+阅读 · 2018年5月21日

【QA论文笔记】问答对排序新方法，层次循环编码器与主题聚类结合

【QA论文笔记】问答对排序新方法，层次循环编码器与主题聚类结合

专知

9+阅读 · 2018年5月14日

Pre-trained Models for Natural Language Processing: A Survey

Arxiv

113+阅读 · 2020年3月18日

ALBERT: A Lite BERT for Self-supervised Learning of Language Representations

Arxiv

5+阅读 · 2019年9月26日

End-to-End Open-Domain Question Answering with BERTserini

End-to-End Open-Domain Question Answering with BERTserini

Arxiv

3+阅读 · 2019年9月18日

Commonsense Knowledge + BERT for Level 2 Reading Comprehension Ability Test

Arxiv

4+阅读 · 2019年9月8日

Fine-tune BERT for Extractive Summarization

Arxiv

3+阅读 · 2019年9月5日

X-BERT: eXtreme Multi-label Text Classification with BERT

X-BERT: eXtreme Multi-label Text Classification with BERT

Arxiv

12+阅读 · 2019年7月4日

How to Fine-Tune BERT for Text Classification?

How to Fine-Tune BERT for Text Classification?

Arxiv

13+阅读 · 2019年5月14日

Investigating the Successes and Failures of BERT for Passage Re-Ranking

Investigating the Successes and Failures of BERT for Passage Re-Ranking

Arxiv

3+阅读 · 2019年5月5日

One-at-a-time: A Meta-Learning Recommender-System for Recommendation-Algorithm Selection on Micro Level

Arxiv

3+阅读 · 2018年5月30日

Towards Understanding and Answering Multi-Sentence Recommendation Questions on Tourism

Arxiv

15+阅读 · 2018年1月5日

VIP会员

相关主题

相关VIP内容

【KDD2020-清华大学】图对比编码的图神经网络预训练

【KDD2020-清华大学】图对比编码的图神经网络预训练

专知会员服务

46+阅读 · 2020年6月18日

【SIGIR2020】基于知识图谱的公平感知可解释推荐，Fairness-Aware Explainable Recommendation over Knowledge Graphs

【SIGIR2020】基于知识图谱的公平感知可解释推荐，Fairness-Aware Explainable Recommendation over Knowledge Graphs

专知会员服务

47+阅读 · 2020年6月3日

【SIGIR2020】用于冷启动推荐的内容感知神经哈希

【SIGIR2020】用于冷启动推荐的内容感知神经哈希

专知会员服务

23+阅读 · 2020年6月2日

【SIGIR2020】LightGCN: 简化和增强图卷积网络推荐

【SIGIR2020】LightGCN: 简化和增强图卷积网络推荐

专知会员服务

73+阅读 · 2020年6月1日

【ACL2020-MIT-韩松】用于高效自然语言处理的硬件感知Transformer

【ACL2020-MIT-韩松】用于高效自然语言处理的硬件感知Transformer

专知会员服务

24+阅读 · 2020年5月29日

【ACL2020-伯克利】预训练Transformer提高分布外鲁棒性

【ACL2020-伯克利】预训练Transformer提高分布外鲁棒性

专知会员服务

20+阅读 · 2020年4月14日

【WWW2020-微软】理解用户行为用于文档推荐

【WWW2020-微软】理解用户行为用于文档推荐

专知会员服务

36+阅读 · 2020年4月5日

【牛津DeepMind】从Word2Vec到BERT:上下文嵌入(Contextual Embeddings)综述论文

【牛津DeepMind】从Word2Vec到BERT:上下文嵌入(Contextual Embeddings)综述论文

专知会员服务

85+阅读 · 2020年3月18日

【WWW2020-推荐】医疗领域答案检索，基于上下文文档表示学习

专知会员服务

38+阅读 · 2020年2月18日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知会员服务

45+阅读 · 2020年2月12日

热门VIP内容

开通专知VIP会员享更多权益服务

【牛津博士论文】零样本强化学习综述

《美军条令：陆军指挥官与规划人员地理空间指南》60页

战术边缘指挥控制：防务面临的核心挑战

迈向开放世界检测：综述

相关资讯

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知

12+阅读 · 2020年2月12日

[Google]BERT压缩到7MB！最新基于最优子词和共享投影的极限语言压缩模型

[Google]BERT压缩到7MB！最新基于最优子词和共享投影的极限语言压缩模型

专知

31+阅读 · 2019年10月6日

参数少一半，效果还更好，天津大学和微软提出Transformer压缩模型

参数少一半，效果还更好，天津大学和微软提出Transformer压缩模型

机器之心

15+阅读 · 2019年7月13日

媲美人类对话水平！微软最新NLP模型3项评分全面超越人类水平！

媲美人类对话水平！微软最新NLP模型3项评分全面超越人类水平！

机器学习算法与Python学习

8+阅读 · 2019年5月4日

进一步改进GPT和BERT：使用Transformer的语言模型

进一步改进GPT和BERT：使用Transformer的语言模型

机器之心

16+阅读 · 2019年5月1日

中文版-BERT-预训练的深度双向Transformer语言模型-详细介绍

中文版-BERT-预训练的深度双向Transformer语言模型-详细介绍

深度学习与NLP

30+阅读 · 2019年3月30日

BERT霸榜问答任务，谷歌新基准模型缩小AI与人类差距50%

BERT霸榜问答任务，谷歌新基准模型缩小AI与人类差距50%

未来产业促进会

4+阅读 · 2019年1月31日

继BERT之后，这个新模型再一次在11项NLP基准上打破纪录

继BERT之后，这个新模型再一次在11项NLP基准上打破纪录

机器之心

8+阅读 · 2018年12月23日

ICLR 2018 | CMU&谷歌大脑提出新型问答模型QANet：仅使用卷积和自注意力，性能大大优于RNN

ICLR 2018 | CMU&谷歌大脑提出新型问答模型QANet：仅使用卷积和自注意力，性能大大优于RNN

机器之心

5+阅读 · 2018年5月21日

【QA论文笔记】问答对排序新方法，层次循环编码器与主题聚类结合

【QA论文笔记】问答对排序新方法，层次循环编码器与主题聚类结合

专知

9+阅读 · 2018年5月14日

相关论文

Pre-trained Models for Natural Language Processing: A Survey

Arxiv

113+阅读 · 2020年3月18日

ALBERT: A Lite BERT for Self-supervised Learning of Language Representations

Arxiv

5+阅读 · 2019年9月26日

End-to-End Open-Domain Question Answering with BERTserini

End-to-End Open-Domain Question Answering with BERTserini

Arxiv

3+阅读 · 2019年9月18日

Commonsense Knowledge + BERT for Level 2 Reading Comprehension Ability Test

Arxiv

4+阅读 · 2019年9月8日

Fine-tune BERT for Extractive Summarization

Arxiv

3+阅读 · 2019年9月5日

X-BERT: eXtreme Multi-label Text Classification with BERT

X-BERT: eXtreme Multi-label Text Classification with BERT

Arxiv

12+阅读 · 2019年7月4日

How to Fine-Tune BERT for Text Classification?

How to Fine-Tune BERT for Text Classification?

Arxiv

13+阅读 · 2019年5月14日

Investigating the Successes and Failures of BERT for Passage Re-Ranking

Investigating the Successes and Failures of BERT for Passage Re-Ranking

Arxiv

3+阅读 · 2019年5月5日

One-at-a-time: A Meta-Learning Recommender-System for Recommendation-Algorithm Selection on Micro Level

Arxiv

3+阅读 · 2018年5月30日

Towards Understanding and Answering Multi-Sentence Recommendation Questions on Tourism

Arxiv

15+阅读 · 2018年1月5日

微信扫码咨询专知VIP会员