https://www.zhuanzhi.ai/paper/fd7ce9fc6cc2c0d5867e2906d17e3d61
作为搜索引擎的心脏,排名系统在满足用户的信息需求方面起着至关重要的作用。最近,从预训练语言模型 (PLM) 微调的神经排名器建立了最先进的排名有效性。然而,由于以下具有挑战性的问题,将这些基于 PLM 的排名器直接应用于大规模网络搜索系统并非易事:(1)大规模神经 PLM 的计算成本过高,尤其是对于网络文档中的长文本,禁止将它们部署在需要极低延迟的在线排名系统中;(2) 现有排名不可知的预训练目标与需要全面相关性建模的临时检索场景之间的差异是改进在线排名系统的另一个主要障碍;(3) 现实世界的搜索引擎通常涉及排名组件的委员会,因此单独微调排名模型的兼容性对于合作排名系统至关重要。在这项工作中,我们在在线搜索引擎系统中部署最先进的中文预训练语言模型(即 ERNIE)时,贡献了一系列成功应用的技术来解决这些暴露的问题。我们首先阐明了一种新颖的做法,以经济高效地总结 Web 文档,并使用廉价但功能强大的 Pyramid-ERNIE 架构将结果摘要内容与查询语境化。然后我们赋予一个创新范式来精细地利用大规模的嘈杂和有偏见的点击后行为数据进行面向相关的预训练。我们还提出了一种为在线排名系统量身定制的人工锚定微调策略,旨在稳定各种在线组件的排名信号。大量的离线和在线实验结果表明,所提出的技术显着提高了搜索引擎的性能。