【KDD2022-教程】深度搜索相关性排名的实践,74页ppt

2022 年 9 月 4 日 专知


长期以来,用于开发工业规模搜索引擎的机器学习技术一直是大多数领域及其在线产品的重要组成部分。搜索相关性算法是电子商务、流媒体服务和社交网络等不同领域产品的关键组成部分。在本教程中,我们计划介绍这种大规模的搜索排名系统,特别关注该领域的深度学习技术。我们计划涵盖的主题如下:(1)搜索排名系统在实践中的概述,包括流行的技术,如页面排名算法和BM25;(2)介绍搜索排序的序列模型和语言模型;(3)该领域的知识蒸馏方法。对于前面提到的每一节课,我们计划先做一个介绍性的演讲,然后再复习一个实际操作的教程,以真正地钻研概念。我们计划通过演示、案例研究和实践示例来涵盖基本概念,包括最新的深度学习方法,这些方法在生成最相关的搜索结果方面取得了最先进的结果。此外,我们计划展示这些方法在python中的示例实现,利用各种开放源码的机器学习库以及真实的工业数据或开放源码数据。

https://dlranking.github.io/dlrr/

相关性排序是信息检索(Information Retrieval, IR)的核心问题,在网络搜索引擎等许多应用中起着至关重要的作用。给定一个查询和一组候选文本文档,使用一个排名函数通过生成分数来确定文档相对于查询的相关度。早期的排序方法专注于查询和web文档之间的文本匹配,如BM25[7],向量空间模型[1]等。然而,随着网络信息的巨大增长,越来越多的自然语言格式的查询以及更多的维度特征(包括时间和空间维度)对现有的排名解决方案提出了挑战。近年来,深度学习方法在许多机器学习排名应用中表现出了巨大的成功,包括DSSM [3], CDSSM [8], DeepRank[6]等。

在本教程中,我们将概述搜索排名的实践,并演示各种经典和流行的排名算法,以帮助读者理解搜索相关性算法及其在现实世界中的应用。本教程大纲如下:搜索相关性排名介绍:在这一环节中,我们将概述信息检索[9]中的排名问题。回顾了排序函数的一些早期工作,并简要介绍了各种排序函数模型的历史。我们选择了一些关键的算法来使用真实数据解释和演示它们的排名表现。我们介绍了几个关键的性能指标来评估排名和在线指标。我们的实践课程涵盖了经典排名函数的实现。基于注意力的搜索相关性模型:在这一环节中,我们将概述序列模型的发展,然后讨论注意力机制。我们还将介绍Transformer架构,以及如何在搜索排名系统的上下文中利用其中一些架构。具体内容如下: (1) 我们介绍了序列模型(如RNN和LSTM)是什么,训练它们时所做的假设是什么,它们更适合于搜索排名系统的哪种数据集。(2)注意力/自注意力: 我们解释一般注意力机制。(3) Transformer:与上述两点类似,我们以真实的搜索排序和自然语言处理任务为背景来解释和激发Transformer架构。(4) 操作会话封面训练:注意力/Transformer模型。知识蒸馏的搜索相关性: 在这一环节,我们提供了一个介绍的深度结构化语义模型(DSSM)[3],已广泛采用在工业中,其质量和高效的架构。我们还介绍了最近的NLP突破,BERT[2]在对查询文档对进行评分方面明显优于DSSM及其变体。然而,我们表明,它的Transformer交叉层同时是昂贵的,因此它不允许离线预计算文档。为了连接两者,我们将我们提出的知识蒸馏[5]从教师BERT模型分享到学生模型。新的学习方法明显胜过传统的DSMM模型,从点击中学习。在实践环节中,听众接受了关于在开源数据集上搜索相关性的知识提炼的培训。提供的代码示例用于训练双塔学生模型,测试数据集用于听众体验教师和学生模型之间的度量差异。



专知便捷查看

便捷下载,请关注专知公众号(点击上方蓝色专知关注)

  • 后台回复“DR74” 就可以获取【KDD2022-教程】深度搜索相关性排名的实践,74页ppt》专知下载链接

                       
专知,专业可信的人工智能知识分发 ,让认知协作更快更好!欢迎注册登录专知www.zhuanzhi.ai,获取100000+AI(AI与军事、医药、公安等)主题干货知识资料!
欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程资料和与专家交流咨询
点击“ 阅读原文 ”,了解使用 专知 ,查看获取100000+AI主题知识资料
登录查看更多
0

相关内容

【RecSys22教程】多阶段推荐系统的神经重排序,90页ppt
专知会员服务
25+阅读 · 2022年9月30日
【KDD2022教程】多模态自动机器学习教程,130页ppt
专知会员服务
76+阅读 · 2022年8月19日
【KDD2022教程】Transformers多模态数据分类,41页ppt
专知会员服务
84+阅读 · 2022年8月18日
如何提取关键词?ECIR2022最新《关键词提取》教程,
专知会员服务
29+阅读 · 2022年4月11日
专知会员服务
41+阅读 · 2021年10月4日
专知会员服务
27+阅读 · 2021年7月20日
【NeurIPS 2020 Tutorial】离线强化学习:从算法到挑战,80页ppt
【PKDD2020教程】机器学习不确定性,附88页ppt与视频
专知会员服务
94+阅读 · 2020年10月18日
【LinkedIn报告】深度自然语言处理的搜索系统,211页pdf
专知会员服务
105+阅读 · 2019年6月21日
RecSys2022 | 多阶段推荐系统的神经重排序教程
机器学习与推荐算法
0+阅读 · 2022年10月12日
KDD2022 | 基于图表示的推荐算法教程
机器学习与推荐算法
0+阅读 · 2022年8月17日
IJCAI2021 | 深度推荐系统教程 (附Slides)
机器学习与推荐算法
1+阅读 · 2021年8月25日
知识分享 | 深度学习的学习路径
沈浩老师
19+阅读 · 2019年1月9日
国家自然科学基金
1+阅读 · 2018年9月23日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
8+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
3+阅读 · 2008年12月31日
Arxiv
103+阅读 · 2021年6月8日
AliCoCo: Alibaba E-commerce Cognitive Concept Net
Arxiv
13+阅读 · 2020年3月30日
Arxiv
22+阅读 · 2018年8月30日
VIP会员
相关VIP内容
【RecSys22教程】多阶段推荐系统的神经重排序,90页ppt
专知会员服务
25+阅读 · 2022年9月30日
【KDD2022教程】多模态自动机器学习教程,130页ppt
专知会员服务
76+阅读 · 2022年8月19日
【KDD2022教程】Transformers多模态数据分类,41页ppt
专知会员服务
84+阅读 · 2022年8月18日
如何提取关键词?ECIR2022最新《关键词提取》教程,
专知会员服务
29+阅读 · 2022年4月11日
专知会员服务
41+阅读 · 2021年10月4日
专知会员服务
27+阅读 · 2021年7月20日
【NeurIPS 2020 Tutorial】离线强化学习:从算法到挑战,80页ppt
【PKDD2020教程】机器学习不确定性,附88页ppt与视频
专知会员服务
94+阅读 · 2020年10月18日
【LinkedIn报告】深度自然语言处理的搜索系统,211页pdf
专知会员服务
105+阅读 · 2019年6月21日
相关资讯
RecSys2022 | 多阶段推荐系统的神经重排序教程
机器学习与推荐算法
0+阅读 · 2022年10月12日
KDD2022 | 基于图表示的推荐算法教程
机器学习与推荐算法
0+阅读 · 2022年8月17日
IJCAI2021 | 深度推荐系统教程 (附Slides)
机器学习与推荐算法
1+阅读 · 2021年8月25日
知识分享 | 深度学习的学习路径
沈浩老师
19+阅读 · 2019年1月9日
相关基金
国家自然科学基金
1+阅读 · 2018年9月23日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
8+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
3+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员