主题: Learning Term Discrimination

摘要: 文档索引是有效信息检索(IR)的关键组件。经过诸如词干和停用词删除之类的预处理步骤之后,文档索引通常会存储term-frequencies(tf)。与tf(仅反映一个术语在文档中的重要性)一起,传统的IR模型使用诸如反文档频率(idf)之类的术语区分值(TDV)在检索过程中偏向于区分性术语。在这项工作中,我们建议使用浅层神经网络学习TDV,以进行文档索引,该浅层神经网络可以近似TF-IDF和BM25等传统的IR排名功能。我们的建议在nDCG和召回方面均优于传统方法,即使很少有带有正标签的查询文档对作为学习数据。我们学到的TDV用于过滤区分度为零的词汇,不仅可以显着降低倒排索引的内存占用量,而且可以加快检索过程(BM25的速度提高了3倍),而不会降低检索质量。

成为VIP会员查看完整内容
15

相关内容

SIGIR是一个展示信息检索领域中各种新技术和新成果的重要国际论坛。
[ICML2020]层次间消息传递的分子图学习
专知会员服务
33+阅读 · 2020年6月27日
【SIGIR2020】用于冷启动推荐的内容感知神经哈希
专知会员服务
22+阅读 · 2020年6月2日
元学习(meta learning) 最新进展综述论文
专知会员服务
278+阅读 · 2020年5月8日
笔记 | Deep active learning for named entity recognition
黑龙江大学自然语言处理实验室
24+阅读 · 2018年5月27日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
基于二进制哈希编码快速学习的快速图像检索
炼数成金订阅号
8+阅读 · 2018年5月17日
读论文Discriminative Deep Metric Learning for Face and KV
统计学习与视觉计算组
12+阅读 · 2018年4月6日
随波逐流:Similarity-Adaptive and Discrete Optimization
我爱读PAMI
5+阅读 · 2018年2月6日
GAN猫的脸
机械鸡
11+阅读 · 2017年7月8日
Learning Discriminative Model Prediction for Tracking
Risk-Aware Active Inverse Reinforcement Learning
Arxiv
7+阅读 · 2019年1月8日
Arxiv
8+阅读 · 2018年5月15日
VIP会员
相关资讯
笔记 | Deep active learning for named entity recognition
黑龙江大学自然语言处理实验室
24+阅读 · 2018年5月27日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
基于二进制哈希编码快速学习的快速图像检索
炼数成金订阅号
8+阅读 · 2018年5月17日
读论文Discriminative Deep Metric Learning for Face and KV
统计学习与视觉计算组
12+阅读 · 2018年4月6日
随波逐流:Similarity-Adaptive and Discrete Optimization
我爱读PAMI
5+阅读 · 2018年2月6日
GAN猫的脸
机械鸡
11+阅读 · 2017年7月8日
微信扫码咨询专知VIP会员