Passage retrieval and ranking is a key task in open-domain question answering and information retrieval. Current effective approaches mostly rely on pre-trained deep language model-based retrievers and rankers. These methods have been shown to effectively model the semantic matching between queries and passages, also in presence of keyword mismatch, i.e. passages that are relevant to a query but do not contain important query tokens. In this paper we consider the Dense Retriever (DR), a passage retrieval method, and the BERT re-ranker, a popular passage re-ranking method. In this context, we formally investigate how these models respond and adapt to a specific type of keyword mismatch -- that caused by keyword typos occurring in queries. Through empirical investigation, we find that typos can lead to a significant drop in retrieval and ranking effectiveness. We then propose a simple typos-aware training framework for DR and BERT re-ranker to address this issue. Our experimental results on the MS MARCO passage ranking dataset show that, with our proposed typos-aware training, DR and BERT re-ranker can become robust to typos in queries, resulting in significantly improved effectiveness compared to models trained without appropriately accounting for typos.


翻译:在开放式问答和信息检索中, 路由检索和排名是一项关键任务。 目前有效的方法主要依赖经过预先训练的深语言模型检索器和排行器。 这些方法已证明能够有效地模拟查询和段落之间的语义匹配, 同时也存在关键词不匹配, 即与查询相关的段落, 但不包含重要的查询符号。 在本文中, 我们考虑的是Dense Retriever( Dense Retriever), 一种通道检索方法, 以及 BERT 重新排行器, 这是一种受欢迎的重新排行法。 在这方面, 我们正式调查这些模型如何应对和适应特定类型的关键词错配 -- -- 由查询中出现的关键词打字打字导致的语匹配。 我们通过实验性调查发现, 打字可以导致检索和排行效率显著下降。 然后我们为DR和BERT重新排列一个简单的打字培训框架来解决这个问题。 我们在MS MARCO 版本排名数据设置上的实验结果显示, 通过我们提议的打字训练培训, DRD和BERT recher recher 能够在查询中变得有效。

0
下载
关闭预览

相关内容

知识增强预训练语言模型:全面综述
专知会员服务
89+阅读 · 2021年10月19日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
152+阅读 · 2019年10月12日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
语言模型及Word2vec与Bert简析
AINLP
6+阅读 · 2020年5月7日
RoBERTa中文预训练模型:RoBERTa for Chinese
PaperWeekly
57+阅读 · 2019年9月16日
BERT源码分析PART I
AINLP
38+阅读 · 2019年7月12日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
Github项目推荐 | awesome-bert:BERT相关资源大列表
AI研习社
27+阅读 · 2019年2月26日
BERT相关论文、文章和代码资源汇总
AINLP
19+阅读 · 2018年11月17日
LibRec 精选:推荐的可解释性[综述]
LibRec智能推荐
10+阅读 · 2018年5月4日
【推荐】自然语言处理(NLP)指南
机器学习研究会
35+阅读 · 2017年11月17日
Arxiv
5+阅读 · 2019年10月31日
Arxiv
4+阅读 · 2019年2月18日
Arxiv
5+阅读 · 2018年5月1日
VIP会员
相关资讯
语言模型及Word2vec与Bert简析
AINLP
6+阅读 · 2020年5月7日
RoBERTa中文预训练模型:RoBERTa for Chinese
PaperWeekly
57+阅读 · 2019年9月16日
BERT源码分析PART I
AINLP
38+阅读 · 2019年7月12日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
Github项目推荐 | awesome-bert:BERT相关资源大列表
AI研习社
27+阅读 · 2019年2月26日
BERT相关论文、文章和代码资源汇总
AINLP
19+阅读 · 2018年11月17日
LibRec 精选:推荐的可解释性[综述]
LibRec智能推荐
10+阅读 · 2018年5月4日
【推荐】自然语言处理(NLP)指南
机器学习研究会
35+阅读 · 2017年11月17日
Top
微信扫码咨询专知VIP会员