文本信息检索(IR)系统侧重于检索能够满足用户信息需求的文本文档,通常以文本查询的形式表示。多年来,这种固有的模糊描述已经形式化,并以文档、信息需求和用户的特定性质为特征。形式化的核心在于文档相对于查询的相关性概念,以及如何估计它们的相关性。多年来,已经提出了许多不同的排序模型来估计文档响应查询的相关性。这些模型依赖于查询和文档提供的信息,这些信息被用来派生“相关性信号”。多年来开发了许多排名模型,从布尔模型到概率和统计语言模型。这些“单词包”模型利用文档中查询词的存在或出现次数来推断它们与查询的相关性,并利用手工制作的函数来组合这些出现的查询,比如BM25。随着Web和社交平台的兴起,越来越多的与文档相关的信息来源被识别出来。机器学习方法已被证明能有效地处理这种丰富的关联信号,并将其应用于根据相关度估计对文档进行排序,从而产生了许多学习-排序(LTR)模型。关联信号是LTR模型的输入特征,通常是手工设计的,这是一个耗时的过程。由于神经网络在许多计算机视觉和自然语言处理任务上的突破,它们代表了当前最先进的方法来对文档和查询相关度进行排序**。神经信息检索主要是利用深度神经网络检索能够满足用户信息需求的文本文档。在神经IR中,神经网络通常以两种不同的方式使用:学习结合相关信号的排序函数以产生文档排序,以及学习文档和查询的抽象表示以捕获它们的相关性信息**。在接下来的文章中,我们将介绍神经IR的最新方法。由于该领域的研究正在迅速发展,我们不会涵盖神经IR的每一个方面,而是对该领域的主要思想和现有系统提供原则性的介绍。如果可以,我们会提供相关和更详细的调查链接。

下面是关于这部分内容的快速概述。第1节提供了在IR中采用的不同文本表示的简短描述,从经典的一热编码到学习-排序特征到单词嵌入。第2节介绍了用于计算查询和文档对的联合表示以进行相关性排名的主要神经体系结构。第3节关注专门为学习查询和文档文本的抽象复杂表示而定制的神经体系结构。第4节概述了神经IR系统中采用的部署方案,以及支持精确和近似最近邻搜索的最常见的密集检索索引。第5节讨论了学习稀疏检索中的当前方法,处理了对文档的低维表示的学习,这些文档可以存储在倒索引或类似的数据结构中。最后,第6节作结束语。

成为VIP会员查看完整内容
24

相关内容

【计算所&清华等新书】预训练方法信息检索,109页pdf
专知会员服务
64+阅读 · 2021年11月30日
【干货书】机器学习算法视角,249页pdf
专知会员服务
133+阅读 · 2021年10月18日
专知会员服务
122+阅读 · 2021年6月18日
最新《图机器学习》综述论文,19页pdf
专知会员服务
145+阅读 · 2021年5月5日
【经典书】机器学习导论,234页pdf
专知会员服务
73+阅读 · 2021年4月20日
【经典书】精通Linux,394页pdf
专知会员服务
89+阅读 · 2021年2月19日
【干货书】Pytorch自然语言处理,210页pdf
专知会员服务
158+阅读 · 2020年10月30日
【神经语言生成:形式化,方法与评价,70页pdf】
专知会员服务
35+阅读 · 2020年8月8日
【干货书】《机器学习导论(第二版)》,348页pdf
专知会员服务
238+阅读 · 2020年6月16日
【Alex Smola干货书】机器学习导论,234页pdf
专知
2+阅读 · 2021年11月24日
421页《机器学习数学基础》最新2019版PDF下载
381页机器学习数学基础PDF下载
专知
88+阅读 · 2018年10月9日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2022年9月15日
Arxiv
21+阅读 · 2021年12月2日
Arxiv
12+阅读 · 2021年10月22日
Domain Representation for Knowledge Graph Embedding
Arxiv
14+阅读 · 2019年9月11日
VIP会员
相关VIP内容
【计算所&清华等新书】预训练方法信息检索,109页pdf
专知会员服务
64+阅读 · 2021年11月30日
【干货书】机器学习算法视角,249页pdf
专知会员服务
133+阅读 · 2021年10月18日
专知会员服务
122+阅读 · 2021年6月18日
最新《图机器学习》综述论文,19页pdf
专知会员服务
145+阅读 · 2021年5月5日
【经典书】机器学习导论,234页pdf
专知会员服务
73+阅读 · 2021年4月20日
【经典书】精通Linux,394页pdf
专知会员服务
89+阅读 · 2021年2月19日
【干货书】Pytorch自然语言处理,210页pdf
专知会员服务
158+阅读 · 2020年10月30日
【神经语言生成:形式化,方法与评价,70页pdf】
专知会员服务
35+阅读 · 2020年8月8日
【干货书】《机器学习导论(第二版)》,348页pdf
专知会员服务
238+阅读 · 2020年6月16日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2008年12月31日
微信扫码咨询专知VIP会员