【干货书】神经信息检索,50页pdf

2022 年 7 月 29 日 专知

文本信息检索(IR)系统侧重于检索能够满足用户信息需求的文本文档,通常以文本查询的形式表示。多年来,这种固有的模糊描述已经形式化,并以文档、信息需求和用户的特定性质为特征。形式化的核心在于文档相对于查询的相关性概念,以及如何估计它们的相关性。多年来,已经提出了许多不同的排序模型来估计文档响应查询的相关性。这些模型依赖于查询和文档提供的信息,这些信息被用来派生“相关性信号”。多年来开发了许多排名模型,从布尔模型到概率和统计语言模型。这些“单词包”模型利用文档中查询词的存在或出现次数来推断它们与查询的相关性,并利用手工制作的函数来组合这些出现的查询,比如BM25。随着Web和社交平台的兴起,越来越多的与文档相关的信息来源被识别出来。机器学习方法已被证明能有效地处理这种丰富的关联信号,并将其应用于根据相关度估计对文档进行排序,从而产生了许多学习-排序(LTR)模型。关联信号是LTR模型的输入特征,通常是手工设计的,这是一个耗时的过程。由于神经网络在许多计算机视觉和自然语言处理任务上的突破,它们代表了当前最先进的方法来对文档和查询相关度进行排序。神经信息检索主要是利用深度神经网络检索能够满足用户信息需求的文本文档。在神经IR中,神经网络通常以两种不同的方式使用:学习结合相关信号的排序函数以产生文档排序,以及学习文档和查询的抽象表示以捕获它们的相关性信息。在接下来的文章中,我们将介绍神经IR的最新方法。由于该领域的研究正在迅速发展,我们不会涵盖神经IR的每一个方面,而是对该领域的主要思想和现有系统提供原则性的介绍。如果可以,我们会提供相关和更详细的调查链接。


下面是关于这部分内容的快速概述。第1节提供了在IR中采用的不同文本表示的简短描述,从经典的一热编码到学习-排序特征到单词嵌入。第2节介绍了用于计算查询和文档对的联合表示以进行相关性排名的主要神经体系结构。第3节关注专门为学习查询和文档文本的抽象复杂表示而定制的神经体系结构。第4节概述了神经IR系统中采用的部署方案,以及支持精确和近似最近邻搜索的最常见的密集检索索引。第5节讨论了学习稀疏检索中的当前方法,处理了对文档的低维表示的学习,这些文档可以存储在倒索引或类似的数据结构中。最后,第6节作结束语。




专知便捷查看

便捷下载,请关注专知公众号(点击上方蓝色专知关注)

  • 后台回复“N50” 就可以获取【干货书】神经信息检索,50页pdf》专知下载链接

                       
专知,专业可信的人工智能知识分发 ,让认知协作更快更好!欢迎注册登录专知www.zhuanzhi.ai,获取100000+AI(AI与军事、医药、公安等)主题干货知识资料!
欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程资料和与专家交流咨询
点击“ 阅读原文 ”,了解使用 专知 ,查看获取100000+AI主题知识资料
登录查看更多
1

相关内容

【硬核书】信号处理基础,677页pdf
专知会员服务
97+阅读 · 2022年9月6日
【计算所&清华等新书】预训练方法信息检索,109页pdf
专知会员服务
64+阅读 · 2021年11月30日
【干货书】机器学习算法视角,249页pdf
专知会员服务
141+阅读 · 2021年10月18日
专知会员服务
251+阅读 · 2021年10月8日
专知会员服务
126+阅读 · 2021年6月18日
【干货书】面向机器学习的自然语言标注,341页pdf
专知会员服务
67+阅读 · 2021年2月7日
专知会员服务
62+阅读 · 2021年2月4日
【2020新书】Python文本分析,104页pdf
专知会员服务
98+阅读 · 2020年12月23日
最新《神经数据压缩导论》综述
专知
4+阅读 · 2022年7月19日
【干货书】计算机科学离散数学,627页pdf
专知
60+阅读 · 2020年8月31日
自然语言处理常识推理综述论文,60页pdf
专知
73+阅读 · 2019年4月4日
421页《机器学习数学基础》最新2019版PDF下载
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2008年12月31日
Arxiv
103+阅读 · 2021年6月8日
Learning from Few Samples: A Survey
Arxiv
77+阅读 · 2020年7月30日
Arxiv
15+阅读 · 2020年2月5日
Arxiv
21+阅读 · 2019年3月25日
VIP会员
相关VIP内容
【硬核书】信号处理基础,677页pdf
专知会员服务
97+阅读 · 2022年9月6日
【计算所&清华等新书】预训练方法信息检索,109页pdf
专知会员服务
64+阅读 · 2021年11月30日
【干货书】机器学习算法视角,249页pdf
专知会员服务
141+阅读 · 2021年10月18日
专知会员服务
251+阅读 · 2021年10月8日
专知会员服务
126+阅读 · 2021年6月18日
【干货书】面向机器学习的自然语言标注,341页pdf
专知会员服务
67+阅读 · 2021年2月7日
专知会员服务
62+阅读 · 2021年2月4日
【2020新书】Python文本分析,104页pdf
专知会员服务
98+阅读 · 2020年12月23日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2008年12月31日
相关论文
Arxiv
103+阅读 · 2021年6月8日
Learning from Few Samples: A Survey
Arxiv
77+阅读 · 2020年7月30日
Arxiv
15+阅读 · 2020年2月5日
Arxiv
21+阅读 · 2019年3月25日
Top
微信扫码咨询专知VIP会员