WWW 2020 | 信息检索中基于上下文的文本词项权重生成

2020 年 7 月 5 日 PaperWeekly

©PaperWeekly 原创 · 作者｜金金

单位｜阿里巴巴研究实习生

研究方向｜推荐系统

本文由卡耐基梅隆大学发表于 WWW 2020，介绍了基于上下文的文本词项权重生成方法 HDCT。原有的搜索引擎在使用词袋模型表示文本时，性能受限于基于词频（term frequence）的词项权重，HDCT 可以生成基于上下文的词项权重作为优化方案，该研究对 BM25 等初步检索（first stage）模型性能提升具有较大意义。

论文标题：Context-Aware Document Term Weighting for Ad-Hoc Search

论文来源：WWW 2020

论文链接：http://www.paperweekly.site/papers/3972

代码链接：https://github.com/AdeDZY/DeepCT

算法

HDCT 算法首先通过 BERT 模型得到段落级词项权重，然后聚合文本内各段落词项权重，最后使用文本内容信号、相关性信号和伪相关反馈信号作为标签训练模型，模型框架图如下：

图1. HDCT框架图

段落级词项权重

给定文本，作者首先将其划分为个段落，在此基础上，作者将每个段落输入BERT模型得到各词项的 embedding，并使用回归层得到初步的权重分数：

此后作者将权重分数放缩到类似于term frequence的整数范围，例如表示保持原分数的两位小数精度：

由此我们可以得到类似于词袋模型的段落向量表示如下：

文档级词项权重

根据以上步骤得到的段落级词项权重表示，文档级词项权重可以通过段落级词项权重的加权和表示：

具体来说，权重的选取有两种方式：第一种方式认为各段落的重要性相同，即；第二种方式考虑用户阅读的注意力随文本的深入而下降，认为各段落的权重随位置前后逐步递减，具体可设置为。该步骤得到的文档级词项权重可直接应用 BM25 等初步检索模型。

模型训练

根据给定的 ground truth 权重分数，作者以最小化平均平方误差作为目标训练模型，损失函数如下：

具体来说，作者提出了三种获取 ground truth 的方法，分别基于文本内容（document content）、基于相关性信号（relevance）和基于伪相关反馈信号（Pseudo-Relevance Feedback）。

基于文本内容的方法考虑包含词项的文本信息源（fields，例如标题、关键词等）的比例。给定文本的段落集合和 field 集合，ground truth 分数计算方法如下：

基于相关性信号的方法考虑包含词项的相关查询的比例。给定文本的段落集合和相关查询集合，ground truth 分数计算方法如下：

基于伪相关反馈信号的方法考虑包含词项的相关查询得到的伪相关反馈文本的比例。ground truth 分数计算方法如下：

实验

本文实验在 ClueWeb 数据集（包括 ClueWeb09-B/C，ClueWeb12-C）和 MS-MARCO Document Ranking 数据集上实现。作者在前者验证了基于内容的训练方法在初步检索任务和重排序任务上的效果，在后者研究了不同训练方法之间的效果差异。

ClueWeb数据集

作者首先在该数据集上对比了传统的 term frequence 算法和 HDCT 得到的权重对 BM25 及相关算法的效果差异。作者分别使用文本的 title 和 inlink 训练模型，发现两种情况效果均优于传统的 term frequence，而在不同的任务上两者效果各有千秋，总体而言使用 inlink 效果略好。

在此基础上，作者对比了该模型和目前较好的重排序模型的效果，和基于 BERT 的重排序模型 BERT-FirstP 相比，该模型在使用 title 作为 query 时和 BM25 的结合取得了更好的效果，在使用 description 作为 query 时同样取得相当的效果。考虑到该模型的时间效率，表现的结果很满足实际的应用需求。

MS-MARCO数据集

作者在该数据集上研究了不同训练信号对模型性能的影响。作者分别使用 title 作为 content-based 的训练信号（HDCT-title），使用 out-domain 和 in-domain 的伪相关反馈文本作为伪相关反馈信号（HDCT-PRFaol 和 HDCT-PRFmacro），使用训练集查询词作为相关性训练信号（HDCT-supervised）。最终结果显示，三者均优于传统的 term frequence，而相关性训练信号的效果最好。