【KDD2022-教程】深度搜索相关性排名的实践，74页ppt

2022 年 9 月 4 日 专知

长期以来，用于开发工业规模搜索引擎的机器学习技术一直是大多数领域及其在线产品的重要组成部分。搜索相关性算法是电子商务、流媒体服务和社交网络等不同领域产品的关键组成部分。在本教程中，我们计划介绍这种大规模的搜索排名系统，特别关注该领域的深度学习技术。我们计划涵盖的主题如下:(1)搜索排名系统在实践中的概述，包括流行的技术，如页面排名算法和BM25;(2)介绍搜索排序的序列模型和语言模型;(3)该领域的知识蒸馏方法。对于前面提到的每一节课，我们计划先做一个介绍性的演讲，然后再复习一个实际操作的教程，以真正地钻研概念。我们计划通过演示、案例研究和实践示例来涵盖基本概念，包括最新的深度学习方法，这些方法在生成最相关的搜索结果方面取得了最先进的结果。此外，我们计划展示这些方法在python中的示例实现，利用各种开放源码的机器学习库以及真实的工业数据或开放源码数据。

https://dlranking.github.io/dlrr/

相关性排序是信息检索(Information Retrieval, IR)的核心问题，在网络搜索引擎等许多应用中起着至关重要的作用。给定一个查询和一组候选文本文档，使用一个排名函数通过生成分数来确定文档相对于查询的相关度。早期的排序方法专注于查询和web文档之间的文本匹配，如BM25[7]，向量空间模型[1]等。然而，随着网络信息的巨大增长，越来越多的自然语言格式的查询以及更多的维度特征(包括时间和空间维度)对现有的排名解决方案提出了挑战。近年来，深度学习方法在许多机器学习排名应用中表现出了巨大的成功，包括DSSM [3]， CDSSM [8]， DeepRank[6]等。

在本教程中，我们将概述搜索排名的实践，并演示各种经典和流行的排名算法，以帮助读者理解搜索相关性算法及其在现实世界中的应用。本教程大纲如下:搜索相关性排名介绍:在这一环节中，我们将概述信息检索[9]中的排名问题。回顾了排序函数的一些早期工作，并简要介绍了各种排序函数模型的历史。我们选择了一些关键的算法来使用真实数据解释和演示它们的排名表现。我们介绍了几个关键的性能指标来评估排名和在线指标。我们的实践课程涵盖了经典排名函数的实现。基于注意力的搜索相关性模型:在这一环节中，我们将概述序列模型的发展，然后讨论注意力机制。我们还将介绍Transformer架构，以及如何在搜索排名系统的上下文中利用其中一些架构。具体内容如下: (1) 我们介绍了序列模型(如RNN和LSTM)是什么，训练它们时所做的假设是什么，它们更适合于搜索排名系统的哪种数据集。(2)注意力/自注意力: 我们解释一般注意力机制。(3) Transformer:与上述两点类似，我们以真实的搜索排序和自然语言处理任务为背景来解释和激发Transformer架构。(4) 操作会话封面训练：注意力/Transformer模型。知识蒸馏的搜索相关性: 在这一环节，我们提供了一个介绍的深度结构化语义模型(DSSM)[3]，已广泛采用在工业中，其质量和高效的架构。我们还介绍了最近的NLP突破，BERT[2]在对查询文档对进行评分方面明显优于DSSM及其变体。然而，我们表明，它的Transformer交叉层同时是昂贵的，因此它不允许离线预计算文档。为了连接两者，我们将我们提出的知识蒸馏[5]从教师BERT模型分享到学生模型。新的学习方法明显胜过传统的DSMM模型，从点击中学习。在实践环节中，听众接受了关于在开源数据集上搜索相关性的知识提炼的培训。提供的代码示例用于训练双塔学生模型，测试数据集用于听众体验教师和学生模型之间的度量差异。