赛尔原创@EMNLP 2021 Findings | 检索式对话情感回复

2022 年 4 月 7 日 哈工大SCIR

论文名称： Retrieve, Discriminate and Rewrite: A Simple and Effective Framework for Obtaining Affective Response in Retrieval-Based Chatbots

论文作者：陆鑫，田一间，赵妍妍，秦兵

原创作者：陆鑫

论文链接： https://aclanthology.org/2021.findings-emnlp.168.pdf

转载须标注出处：哈工大 S C I R

1. 背景

已有聊天机器人系统根据实现技术的不同，大体可分为两类：基于生成的聊天机器人和基于检索的聊天机器人。在基于生成的聊天机器人中，已有一些工作可以使得对话系统给出情感化的回复[1-5]，这些工作重点关注如何赋予对话系统像人一样的情感表达能力，而此类问题也被称为基于生成的对话情感回复问题。类似地，在基于检索的聊天机器人中，同样存在获得情感化回复的问题[6]，这类问题即为基于检索的对话情感回复问题。

基于检索的对话情感回复问题，一般可表达为：在检索式对话系统中，基于候选集合中的回复，对于给定的对话上文实现情感化的回复。我们给出了该问题的一个简单示例，如图1所示。

图1 检索式对话情感回复的一个实例

从上面的例子不难看出，检索式聊天机器人与生成式聊天机器人十分不同，它不能自由地生成全新的回复，而是要受限于候选回复集合。这个特点在一般对话回复场景有其有利的一面，但是在情感对话回复场景下却是限制情感表达质量的关键所在，我们的工作重点分析了这个问题，并提出了相应的解决方案。

2. 简介

不同于基于生成方法的聊天机器人，基于检索方法的聊天机器人必须基于候选回复集合来获得回复。因此，基于检索的对话情感回复问题中，如何有效地利用候选回复是一个十分重要的问题。现有工作普遍基于"检索-重排序"框架[6-7]，这一类方法都是先进行正常的检索，即对候选回复进行打分排序，然后再根据情感目标是否符合来重新调整候选回复的顺序，期望通过这样的方式获得情感和内容上都高质量的回复。

图2 对比两个框架之间差异的具体示例

然而，"检索-重排序"框架是有明显缺陷的，这种方法会以牺牲回复质量为代价去满足给定的情感目标。这意味着高质量但情感目标不满足的候选回复将会被直接丢弃，严重影响回复效果，也直接降低了基于检索的聊天机器人的核心优势。例如，在图2 (a)中，当不考虑情感目标时，高质量的候选回复2应该是最佳选择，但由于需要优先考虑情感目标，只能选择质量一般的候选回复3。

为了同时保证回复的内容质量和情感质量，我们提出了一种简单有效的"检索-判别-重写"框架。该框架用新的"判别-重写"机制取代了重排序机制，这种新机制会优先选择高质量的候选回复，然后重写那些已选择但情感目标不符的回复。例如，在图2 (b)中，我们的新框架会优先选择高质量的候选回复2，然后判断出候选回复2的情感并不满足既定情感目标，最后通过少量的修改就可以使候选回复2的情感满足既定目标。这表明我们的新框架不仅可以保证回复质量，还可以满足给定的情感目标。

3. 方法

整体框架共包含三个部分，第一部分是检索模块，这个模块主要用于兼容现有检索式聊天机器人，可为后续模块提供高质量的候选回复。第二部分是判别模块，这个模块主要从检索模块接收检索到的高质量回复，然后判断回复是否满足情感目标，将满足情感目标的回复直接输出，将不满足情感目标的回复送到下一个模块。第三部分是重写模块，这个模块主要接收来自判别模块的情感目标不满足的回复，然后可以将回复的情感从不满足修改为满足。框架结构如图3所示，下面我们将具体介绍这三个模块。

图3 整体框架示意图

3.1 检索模块

在我们的框架中，检索模块主要用于与现有检索式聊天机器人方法兼容。为了验证我们的框架是通用的，我们在框架中选择了以下检索式聊天机器人方法来获得高质量的候选回复，我们会分别基于这些检索方法进行实验。

GTM：这是理想的检索模型，它始终输出与标准答案一致的候选回复。我们使用这个理想模型来研究我们的框架在检索结果完美时的性能情况。
SMN[8]：这是检索式聊天机器人的经典工作，它提出了一个序列匹配网络，在多个粒度级别上将回复与每个话语进行匹配，通过RNN处理获得匹配向量并最终获得匹配分数。
MSN[9]：这是检索式聊天机器人的另一个工作，它提出了一个多跳选择器网络来缓解引入无关上下文的负面作用，这是论文撰写时最好的方法之一。

3.2 判别模块

在我们的框架中，判别模块主要用于从检索模块接收检索到的高质量回复，并判断回复是否满足情感目标。对于满足情感目标的回复直接输出，对于不满足情感目标的回复则送入重写模块。

值得注意的是，该模块处理的是一个分类任务，因此我们可以利用许多现有的分类器。在这项工作中，我们选择预训练BERT模型作为我们的分类器，它在各种NLP任务中取得了先进的性能。

对于预训练BERT模型，给定一个回复，输入可以被表示为：” ”，遵循最通用的做法，我们使用[CLS]标记的隐层表示来作为回复的表示，然后将其送入softmax层进行分类。

3.3 重写模块

在我们的框架中，重写模块主要用于接收来自判别模块的情感目标不满足的回复，并将回复的情感从不满足修改为满足。

重写模块中，我们将回复的情感重写视为一个两阶段的过程：删除和生成。第一个删除阶段我们使用预训练的情感分类模型来删除回复中的情感表达，第二个生成阶段我们设计了两个基于Transformer的生成器来生成具有给定目标情感的回复。我们将在下面分别介绍这两个阶段。

删除阶段

在这个阶段，我们目标是识别并删除情感回复中的情感表达，对于中性回复，在这个阶段我们什么都不做。我们的主要做法是利用预训练情感分类模型来自动识别词级别的情感表达。对于情感分类模型而言，句子中的情感表达通常是识别句子情感极性的关键。因此，一个直观的想法就是衡量句子中不同词对句子情感分类的重要程度，最重要的词就很有可能是关键的情感表达。

具体来说，我们设计了一个词排名机制来识别回复中的词级别情感表达。我们计算回复R中每个词的重要性得分，方法是删除回复中的词，然后比较删除前后的目标情感预测得分，即和。每个词的重要性得分可以形式化定义为：

我们计算每个单词的重要性分数，并选择前25%的单词作为情感表达。然后，我们删除这些情感表达并将修改后的回复送入到下一阶段。

生成阶段

在这个阶段，我们目标是生成具有特定情感的回复。我们注意到，这个阶段的输入有两种回复，一种是已删除情感表达的回复，另一种是未经过处理的中性回复，虽然两者都是情感中性，但是句子分布上存在明显差异，而又只有前者可以参与生成训练，这会导致中性回复改写为情感回复的性能不佳。为了解决这个问题，我们提出了两个生成器：中性表达生成器和情感表达生成器。我们将在下面分别介绍这两个生成器和它们的训练测试。

图4 重写模块中生成阶段的训练和测试

中性表达生成器：中性表达生成器主要用于补全已删除情感表达的回复，这样这类回复就会变为补全的中性回复，可以为情感表达生成器提供额外的训练数据，从而缓解分布不一致的问题。此生成器结构与GPT模型结构保持一致。

情感表达生成器：情感表达生成器主要用于从已删除情感表达的回复或中性回复生成具有目标情感的回复。训练时用到的中性回复，由中性表达生成器提供。此生成器结构与GPT模型结构保持一致。

训练和测试：为了训练这两个生成器，首先需要一个情感语料库，其中包含积极、消极、中性三类句子。训练过程主要包括两个阶段，如图4所示。在训练阶段1，我们使用中性句子来训练中性表达生成器，其输入是随机删除了25%词的句子，输出是原始中性句。在训练阶段2，我们使用情感句子来训练情感表达生成器，输入是经处理变成已删除情感表达的句子或补全的中性句子，输出是原始情感句。在测试阶段，输入是一个情感句子或中性句子，输出是一个符合目标情感的句子。

4. 实验

4.1 数据集

我们基于检索式对话中常用的豆瓣小组对话数据集[8]进行实验，并且为了实现对检索式情感回复任务的支持，我们对其中1,400段对话人工标注了情感，训练情感分类器对剩余对话自动标注了情感。原始数据集的统计信息如表1所示，我们新增标注的统计信息如表2所示。

表1 豆瓣小组对话数据集统计信息

表2 新增情感标注的统计信息

4.2 基线与评价

我们选择了如下两个基线模型与我们的方法进行比较：

Base(w/o. control)：直接返回检索模型检索到的最佳回复，完全不考虑目标情感。这是回复内容角度的强基线模型，一般考虑情感因素的模型在回复质量上都会弱于此基线。
Reranking：利用检索模型先对回复进行内容排序，然后再进行情感重排序，返回符合目标情感且内容排序最高的回复。这是回复情感角度的强基线，也是“检索-重排序“框架的代表模型。

对于模型回复的质量评估，我们选择人工评价。具体来说，我们随机选取测试集100段对话，令3位人类评估者对各个回复进行打分，评价维度主要包括：

内容相关性：（0 - 5）对于对话上文，该回复是否是连贯的、有意义的
内容流畅度：（0 - 5）对于回复本身，该回复是否是流畅的、语法合理的
情感准确性：（0 - 1）对于情感角度，该回复是否符合目标情感

4.3 主实验结果

表3 主实验结果

我们将新框架与两个基线方法进行比较，并将基于不同检索模型的结果分为不同的组，实验结果如表3所示。从回复的内容得分上看，Base(w/o. control)是只考虑内容不考虑情感的基线模型，因此其内容得分是三种方法中最高的。我们的框架仅次于Base（w/o. control），且明显优于优先考虑情感的重排序基线模型Reranking，初步说明了我们框架在回复内容上的优势。从回复的流畅度得分来看，我们的框架由于对回复进行了修改，比Base（w/o. control）和Reranking略弱，但也很接近满分。从情感准确性得分来看，我们的框架是三种方法中最好的，这也显示了我们的框架在情感方面的优势。

基于上面的实验结果，我们可以看出，我们的框架比基线方法能够更好地获得情感回复，尤其是在保证了情感准确性的基础上，还有效避免了重排序机制的低质量回复问题。

4.4 核心问题分析结果

图5 核心问题分析结果

我们通过分析情感候选回复数量的影响，以进一步解释"检索-重排序"框架的问题以及我们"检索-判别-重写"框架的优势。具体来说，我们通过丢弃情感候选回复来改变其在全部候选中的比例，以此来模拟具有不同量级情感信息的检索式聊天机器人。我们绘制了不同方法在回复内容得分、回复情感得分和平均得分的性能趋势，实验结果如图5所示。

正常情况下，随着对话系统中情感候选回复的增加（丢弃率的降低），回复内容得分应该逐渐增加，就像Base（w/o. control）和我们的框架一样。然而，Reranking的回复内容得分却逐渐下降，这证实了我们在前面中提到的"检索-重排序"框架的低质量回复问题。从回复情感得分来看，我们的框架始终可以保持高水平。最后，从内容和情感的平均得分来看，我们的框架始终是最优的。

4.5 判别模块分析结果

表4 判别模块影响分析

我们分析了判别模块对最终性能的影响。具体来说，我们将判别模块的分类器从BERT改为CNN和BiLSTM，然后探索判别模块的性能与最终性能之间的关系。如表4所示，最优的判别模块分类器对应了最优的最终性能，这说明了我们框架中良好判别模块的重要性。

4.6 重写模块分析结果

表5 重写模块影响分析

我们分析了框架中的重写模块。具体来说，我们复现了DeleteRetri[10]风格迁移模型，与我们提出的重写模块进行比较。我们选择这个模型是因为它也包含了删除和生成的过程，但是没有针对中性回复进行特殊设计。为了验证处理中性回复的能力，我们评估了这些模型在输入分别为情感回复(Acc-A.)和中性回复(Acc-N.)时的情感准确性，结果如表5所示。

从表中我们观察到两个模型的内容和流畅度得分都差不多，但是我们的重写模块的情感准确性明显更好。DeleteRetri存在中性输入性能明显低于情感输入的问题，而我们的重写模块则没有这样的问题，这表明我们改进的有效性。

5. 结论

本文中，我们提出了一种"检索-判别-重写"框架，可在基于检索的聊天机器人中获得情感回复，解决了"检索-重排序"框架中回复质量低的问题。新框架包含三个部分：检索模块、判别模块和重写模块，可以优先选择高质量的候选回复并重写与情感目标不符的回复。实验结果表明，新框架明显优于有竞争力的基线模型，更深入的分析则进一步证明了新框架的有效性。

参考文献

[1] H. Zhou, M. Huang, T. Zhang, et al. Emotional Chatting Machine: Emotional Conversation Generation with Internal and External Memory. AAAI 2018.

[2] X. Zhou and W. Y. Wang. MojiTalk: Generating Emotional Responses at Scale. ACL 2018.

[3] C. Huang, O. Zaïane, A. Trabelsi, and N. Dziri. Automatic Dialogue Generation with Expressed Emotions. NAACL 2018.

[4] Z. Song, X. Zheng, L. Liu, et al. Generating Responses with a Specific Emotion in Dialog. ACL 2019.

[5] P. Colombo, W. Witon, A. Modi, et al. Kapadia. Affect-Driven Dialog Generation. NAACL 2019.

[6] L. Qiu, Y. Shiu, P. Lin, et al. What If Bots Feel Moods? Towards Controllable Retrieval-based Dialogue Systems with Emotion-Aware Transition Networks. SIGIR 2020.

[7] N. Lubis, S. Sakti, K. Yoshino, and S. Nakamura. Positive Emotion Elicitation in Chat-Based Dialogue Systems. IEEE/ACM Transactions on Audio, Speech, and Language Processing 2019.

[8] Y. Wu, W. Wu, C. Xing, et al. Sequential Matching Network: A New Architecture for Multi-turn Response Selection in Retrieval-Based Chatbots. ACL 2017.

[9] C. Yuan, W. Zhou, M. Li, et al. Multi-hop Selector Network for Multi-turn Response Selection in Retrieval-based Chatbots. EMNLP 2019.

[10] J. Li, R. Jia, H. He, and P. Liang. Delete, Retrieve, Generate: A Simple Approach to Sentiment and Style Transfer. NAACL 2018.

本期责任编辑：冯骁骋