最新进展概述：澄清式提问辅助理解信息检索中的用户意图

2020 年 7 月 29 日 PaperWeekly

©PaperWeekly 原创 · 作者｜金金

单位｜阿里巴巴研究实习生

研究方向｜推荐系统

用户使用搜索引擎的过程中，通常很难用单一的查询表达复杂的信息需求。在真实应用的过程中，用户需要根据当前搜索引擎的展示结果反复修改查询词。这一过程极大地增加了用户搜索的负担，影响了用户的搜索体验。

近期，澄清式提问（Asking Clarifying Questions）的提出为该问题的解决提供了新的思路。该方法根据用户给出的查询提出相关问题，从而更好地理解用户意图，展示更符合用户需求的排序结果，提高用户对搜索过程的满意度。本文将概述该方向的一些最新研究进展。

从任务提出到简单实现

论文标题：Asking Clarifying Questions in Open-Domain Information-Seeking Conversations

论文来源：SIGIR 2019

论文链接：https://arxiv.org/abs/1907.06554

本文发表于 SIGIR 2019，该论文首先提出了“通过澄清式提问理解信息检索中的用户意图”的任务；然后针对已有的查询，根据搜索引擎的查询词建议或已知的不同用户意图，人工构造澄清式问题和答案；在此基础上提出了根据查询和历史问答记录检索并选择当前问题的深度学习模型 BERT-LeaQuR 和 NeuQS。

1.1 任务流程

作者首先定义了搜索引擎中澄清式提问的流程（如图1所示）。根据用户初始的查询，系统建立用户需求表示，使用该需求表示分别检索相关文档和生成并选择可能提出的澄清式问题。用户根据系统展示的澄清式问题给出回答，系统则联合建模问答记录和查询，生成新的用户需求表示，以更好的检索相关文档。

▲ 图1. 搜索引擎中澄清式提问的流程

1.2 数据收集

作者此后建立了第一个用于搜索引擎澄清式提问的数据集 Qulac。具体构造流程如下：

形成查询-意图集合：作者使用 TREC Web track 09-12 中的 198 条主题作为初始查询，并将各主题分解为它包含的不同方面作为用户意图。统计信息显示，每个查询平均有 3.85 项意图，完整数据集共包含 762 项查询-意图对。
提出澄清式问题：作者邀请了多名标注人员，使其模仿对话代理的行为。标注人员根据已有的各主题包含的意图或搜索引擎自动生成的查询推荐为依据，为各查询提出澄清式问题。
编辑问题答案：作者邀请另一组标注人员，针对每一个澄清式问题，在给定查询和意图描述的情况下，手动编辑问题答案。

经过对无效问题的过滤，统计信息显示，完整数据集共包含 2639 条澄清式问题与 10277 项问题-答案对。

1.3 问题检索-选择模型

给定查询和历史问答记录（包括历史问题和用户答案）的条件，该模型的目的是预测系统应提出的下一问题。具体来说，该模型包含两个部分：问题检索模型 BERT-LeaQuR 和问题选择模型 NeuQS。

问题检索模型根据给定的查询选择 top-k 的澄清式问题，具体来说，该模型首先使用 BERT 生成查询和问题的表示，并将二者拼接输入全连接神经网络得到该问题被选择的概率：

问题选择模型在检索结果的基础上进一步建模，选择向用户提出的问题。该模型同时考虑查询表示，问答上下文表示，候选问题表示，检索结果表示和查询表现表示，从而得到选择分数。

其中检索结果表示使用 top-k 检索文档的检索分数表示，查询表现表示使用 QPP 模型计算 top-k 检索文档在不同排序位置的最大表现分数：

生成澄清式问题和候选答案

论文标题：Generating Clarifying Questions for Information Retrieval

论文来源：WWW 2020

论文链接：https://dl.acm.org/doi/pdf/10.1145/3366423.3380126

本文发表于 WWW 2020，主要贡献在于提出了生成澄清式问题和候选答案的方法。具体来说，本文首先提出了澄清问题的分类，然后使用模版补全算法生成澄清式问题，在此基础上，将这些问题作为模型训练的弱监督信号，训练生成澄清式问题的监督学习算法和强化学习算法，最后讨论了候选问题的选择方法。

2.1 监督学习算法QLM

作者首先为每个独立查询建立 aspects（即可能出现的查询修改）。作者通过研究查询重构日志，针对每个独立查询，将出现过的查询增加方式作为该查询的一种 aspect，在此基础上，作者使用 NCF 算法得到每一 aspect 的概率分布。

此后作者根据 query string, entity type of the query, the entity type for the majority aspects of the query 三类信息，补全以下模版，生成训练模型的弱监督信号：

▲ 图2. 问题补全模版

最后，作者使用简单的 encoder-decoder 模型，首先建模查询和它的各个 aspects，然后解码生成新的问题，具体算法流程如下图所示：

▲ 图3. QLM算法框架

2.2 强化学习算法QCM

考虑到监督学习算法很难突破原有模版补全生成问题的局限性，作者在此基础上提出强化学习算法 QCM，该算法希望最大化澄清实用性，具体来说，作者使用 REINFORCE 算法最小化损失函数如下：

其中是澄清性估计函数，是 QCM 生成的问题，是 QLM 生成的问题，作者希望提出的问题澄清查询意图的概率最大，该概率在给定候选答案集合和意图集合的情况下计算方法如下：

所提及的三部分概率计算方法如下：

：该部分仅取决于查询和意图，与提出的问题和候选答案相独立，故可使用 NCF 算法得到每一 aspect 的概率分布替代。
：该部分取决于答案和意图的匹配程度，具体计算方法由两者词向量余弦相似度平均值得到。
：该部分使用 query text, query entity type 和 answer entity type 三部分计算，构造输入以上三者输出所有候选答案的类 word2vec 模型。具体实现候选答案和 answer entity type 可用新增查询词项及其 entity type 替代。

作者使用人工标注数据集验证生成问题的质量，发现强化学习算法 QCM 优于监督学习算法 QLM 和模版补全算法。

用户交互行为分析

论文标题：Analyzing and Learning from User Interactions for Search Clarification

论文来源：SIGIR 2020

论文链接：https://arxiv.org/abs/2006.00166

本文发表于 SIGIR 2020，分析了澄清式问题在真实搜索引擎应用过程中对用户的影响。具体来说，作者首先分析了用户更倾向于使用澄清式问题的情景（包括澄清式问题自身的特征和查询特征），然后分析了用户在候选答案中的点击偏差，最后使用用户交互数据优化澄清式问题选择模型。

3.1 交互行为分析

作者使用上文提及的第二篇论文中提到的问题生成方法，在真实的搜索环境中生成澄清式问题，总结了以下因素对用户参与澄清式问题的影响：

问题生成模版：更具体的问题会有更多的用户参与；
候选答案数量：候选答案超过2个后用户参与程度变化不大；
答案选择的分布：问题答案点击分布的熵最大或中等水平时，用户参与程度最高；
查询长度：查询较长时，用户参与程度较高；
查询类型：自然语言问题类的查询，用户常参与澄清式问题；
历史点击数据：被点击的 URL 数量和点击分布的熵越大时，用户参与程度越高。

同时作者邀请标注人员针对使用澄清式问题前后的页面进行满意度层面打分（Good, Fair, Bad 三个等级）。结果发现使用澄清式问题后，用户的满意度显著提高。

3.2 问题选择模型

作者在此基础上，提出了查询-问题表示生成模型，从而根据当前查询选择澄清式问题。

该模型分为 Intents Coverage Encoder 和 Answers Consistency Encoder 两部分。前者将查询、候选答案集合和意图拼接输入 BERT 模型，并使用意图权重作为注意力分数生成意图覆盖表示。

后者将查询、候选答案和它的实体类型拼接输入 BERT 模型，生成答案一致性表示。最后将二者拼接输入全连接网络以预测当前问题是否应该被选择。

▲ 图4. 问题选择表示模型架构图

作者在用户点击数据上训练重排序任务，并在用户满意度数据上训练问题选择任务，取得了较好的效果。

基于Transformer的多任务多资源框架

论文标题：Guided Transformer: Leveraging Multiple External Sources for Representation Learning in Conversational Search

论文来源：SIGIR 2020

论文链接：https://arxiv.org/abs/2006.07548

本文发表于 SIGIR 2020，提出了一种基于 Transformer 的多任务多资源框架，用于解决下一问题预测和文档排序任务。

具体来说，作者利用两种类型的外部 source（即伪相关反馈获得的文本和澄清式问答记录），结合查询与目标文本/问题，输入 BERT 和 Guided Transformer 模型，生成相关性表示信号，预测目标问题的被选择概率或目标文本的相关性标签。

另外，作者结合意图描述定义任务实现多任务学习，提升模型效果。该框架在两项任务上均取得 SOTA 效果。

4.1 Guided Transformer

Guided Transformer 通过 Input Self Attention, Multi Source Self Attention 和 Multi Source Cross Attention 为输入与外部资源生成新的表示，具体流程如下图：

▲ 图5. Guided Transformer图解

Multi Source Cross Attention 使用外部 source 表示生成新的 input i-th token 表示，其中由中各 token 表示和 input i-th token 表示计算内积并通过 softmax 函数得到，而由各 source 第一个 token 表示和 input i-th token 表示计算内积并通过 softmax 函数得到：

4.2 多资源多任务学习框架

该框架在给定查询，对应的意图集合和历史问答记录的情况下，计算目标问题的被选择概率或目标文本的相关性标签。

具体来说，该框架将查询、澄清式问答和目标文本拼接输入 BERT 模型（输入形式：[CLS] query tokens [SEP] clarifying question tokens [SEP] user response tokens [SEP] document tokens [SEP]），并通过多层 Guided Transformer layer，将 [CLS] token 作为相关性表示信号，预测最终标签。

此外，该框架在目标任务（即下一问题预测或文档排序任务）的基础上，通过意图定义这一辅助任务的联合学习提升模型效果。