论文概述:为预训练语言模型设计与下游任务更加接近的预训练任务与目标,可以在微调阶段获得更好的效果,尤其是在信息检索领域。现有的面向信息检索的预训练方法试图引入一些弱监督信号,例如基于查询似然的采样,来从海量文本语料中生成伪查询-文档对,从而完成对预训练模型的监督训练。但是,这些信号严重依赖于具体的采样算法。例如,查询似然模型可能在构建预训练数据时带来严重的噪声。因此,在本文中,我们提出利用语料中大规模的超链接与锚文本,来完成面向的信息检索的预训练语言模型。超链通常是由网络管理员或用户人工添加,且能很好的总结对应文档。因此,相比现有的基于采样算法的模型,超链可以帮助构建更加准确和可靠的预训练样本。考虑到下游信息检索任务的不同角度,我们设计了四个基于超链的预训练任务,包括代表性查询预测,查询消歧建模,代表性文档预测,锚文本共线建模,从而让模型学习相关性建模能力。连同掩码语言模型(MLM),我们使用Pair-wise损失函数对Transformer模型进行预训练。为了评价我们提出的预训练方法的有效性,我们在两个信息检索的数据集上进行了微调,包括MSMARCO Document Ranking数据集以及TREC DL 2019数据集。实验结果证明,我们的模型相比现有最好的模型有明显的效果提升。