在大规模无标签文本上预训练语言模型,然后在下游任务微调的学习模式已经在自然语言处理(NLP)领域取得了广泛的应用。尽管当前的预训练语言模型在大部分NLP任务上取得了显著的进展,然而,研究人员发现当预训练任务的目标更接近于下游任务的目标时,模型在下游任务上能取得更大幅度的性能提升,例如针对文本摘要设计的Gap Sentence Prediciton预训练任务[1]、面向机器阅读理解设计的Span Selection预训练任务[2]、以及为情感分析设计的Label-aware MLM预训练任务[3],都取得了相较于原始预训练语言模型更好的性能。近年来,在信息检索(IR)中,预训练语言模型在文档排序任务上取得了一定的效果,然而,如何设计更符合信息检索需求的预训练目标,是一个值得探索的新领域。
在这项工作中,我们提出了一个新颖的针对信息检索的预训练任务,叫做“代表词预测”任务(Representative Words Prediction)。这个任务是受到了IR中经典统计语言模型——查询似然模型的启发,在查询似然模型的基本假设中,查询被认为是由“理想”文档“生成”出来的具有代表性的文本,因此通过贝叶斯定理推导,查询的相关性强度可由其代表性或者说是其似然值表征。鉴于此,我们就构建了这样一个新的代表词预测任务(简称为ROP任务),具体来说,对于一个给定的文档,我们根据文档语言模型(狄利克雷平滑的多项式语言模型)采样出该文档的代表性词集,然后预训练语言模型使其能够有效地区分出其中哪些词项更具有代表性。为了同时建模查询和文档内容理解以及二者关系的预测,我们结合ROP与MLM一起在无标签的文档语料上进行预训练,我们把通过这种预训练方式得到的语言模型命名为PROP。
https://www.zhuanzhi.ai/paper/57435651043bb840be881c8e7a71c70d