信息检索是搜索引擎、对话系统以及开放域问答等自然语言处理任务的重要组成部分。IR在生物医学领域发挥着重要的作用,在生物医学领域,科学知识的内容和来源可能会迅速发展。尽管神经检索在标准的开放域问答任务中已经超越了传统的IR方法,如TF-IDF和BM25,但在生物医学领域仍存在不足。在本论文中,我们试图利用神经检索器(NR)改善生物医学领域的信息检索(IR),并采用三管齐下的方法来实现这一目标。首先,为了解决生物医学领域数据相对匮乏的问题,我们提出了一种基于模板的问题生成方法,可用于训练神经检索模型。其次,我们开发了两个与下游信息检索任务紧密相关的新训练前任务。第三,我们引入了“Poly-DPR”模型,它将每个上下文编码成多个上下文向量。关于BioASQ挑战的大量实验和分析表明,我们提出的方法比现有的神经方法获得了很大的收益,并在小语料库环境中击败了BM25。我们证明了BM25和我们的方法可以相互补充,一个简单的混合模型可以在大型语料库设置中获得进一步的收益。
https://www.zhuanzhi.ai/paper/15fa11615c0f9c05569c72cc43df7589