论文浅尝 | MISC：融合COMET的混合策略模型进行情感支持对话

2022 年 10 月 14 日 开放知识图谱

笔记整理：朱益鹏，东南大学硕士，研究方向为知识图谱问答、自然语言处理。

论文引用：Tu, Q. , Li, Y. , Cui, J. , Wang, B. , Wen, J. R. , & Yan, R. . (2022). Misc: a mixed strategy-aware model integrating comet for emotional support conversation.

动机

在以前的工作中，情感对话往往依赖的是对话级别的情感标签类似负面/正面，但这种情感标签往往粒度太粗无法捕捉用户丰富的情感。除此以外这类情感对话也无法真正减少用户的痛苦，而仅仅注重表达出对用户情感的回应。

为了解决这些局限，有一些情感对话模型会使用高兴、愤怒等这类更加细致的标签，甚至在此基础上加上程度或分数来进一步细粒度的表现情感。而真正关注减少用户的痛苦的模型很少。

文章提出了一种融合COMET的情感对话模型（A MIxed Strategy-Aware Model Integrating COMET for Emotional Support Conversation，MISC）来解决以上两种局限，在本文中认为用户情绪是复杂的，用户的情绪强度将在对话的发展过程中发生变化因此，有必要在每次对话时获得用户的精细心理状态。为此集成了COMET到情感对话中，使用不同的COMET元组捕捉用户的瞬时心理状态。而为了解决第二个问题，本文通过将反应策略建模成one-hot，并将其表示为不同策略的概率分布一次来进行混合策略的响应生成。

贡献

文章的贡献有：

（1）提出了一个Seq2Seq框架MISC，该框架将常识知识和混合反应策略融入情感支持对话中；

（2）在ESConv数据集上进行了实验，并通过与其他SOTA方法的比较证明了所提出的MISC的有效性。

（3）实现了不同的策略建模方法，并对策略感知的情感支持对话给出了一些提示。

方法

图1 整体框架图

MISC主要包含三个部分：1.Mental state-enhanced encoder 2. Mixed strategy learning module 3. Multi-factor-aware decoder

1. Mental state-enhanced encoder

首先像一般情景对话模型一样将上下文进行编码。编码结果记作C。为了更好捕捉用户的瞬时情感变化，模型使用COMET来生成用户对话过程中心理状态信息。将情景s作为一个事件，并将各种关系赋予s送入COMET进行生成。在COMET中有Nr个预先定义的关系集。将事件s和特定关系relj 的事件关系对送入COMET可以生成多元的心理状态。模型设Bs为预先定义的心理状态的子块为COMET生成的结果。并且类似这样的做法可以获得之前对话过程中的心理变化。将其和上下文一样进行编码，由于上下文信息的重要程度不同，这里还引入了注意力机制来进行信息增强。这样就同时获得了心理状态的编码和对话级的编码。

2. Mixed strategy learning module

有了心理状态和对话的编码，获得对应的响应策略可以简单使用多层感知机对其进行分类获得各种策略的概率分布。而模型利用这个概率分布进一步对响应策略进行混合建模。通过一种密码本的思想，将m个d维策略表示为一个策略码本T。使用多层感知机获得的概率分布对其进行加权就可以获得一个混合多种策略的全面的响应策略。这样做可以有效生成可以降低用户痛苦的响应策略，而且还有灵活多变的好处，直觉上，概率越大所对应的策略就应该发挥更大作用，在极端情况就可以直接用一个策略进行处理。

3. Multi-factor-aware decoder

最后将我们获得上下文编码、心理状态信息、对话编码、获得的混合响应策略，让解码器了解这些信息，对解码器的交叉注意力模块进行修改。这样最终获得的解码结果就是综合了多种因素的反馈。训练的损失函数由预测心理状态的损失和预测模型反馈两部分构成。

实验

（1）实验相关细节

实验采用的对话数据集为ESConv将其10个utterances看做一次会话。选用metric的时候选使用预测策略的ACC作为基本指标，这表示预测策略越准确则可以获得更好的模型响应。除此以外还选择了PPL (perplexity), B-2 (BLEU-2), B-4(BLEU-4)的等指标。除此以外还由心理语言学家对流畅度、共情等角度对反馈进行评分。评分是不了解反馈的来源的。

选择基于MLE的seq2seq模型Transformer、将情感预测作为额外任务的MT Transformer、综合多个解码器输出的MoEL、SOTA方法BlenderBotJoint等模型，与MISC进行比较。

图2 数据集处理信息

（2）实验结果

如下图3所示，根据其相对较低的PPL、BLEU-n和distinct-n分数，Transformer表现最差。这很正常，因为它没有任何其他特定的优化目标来学习同理心，并且观察到其在ESConv数据集中的较长的上下文方面存在不足。MT Transformer、MoEL和MIME的性能也比较差。尽管他们三个都配备了情感预测等能力，但他们是基于对话级静态情绪标签，这不足以进行细粒度的情绪理解。而且，这三个模型缺乏在情感支持对话中减少用户痛苦的能力。通过与SOTA模型BlenderBotJoint的比较，可以看到MISC更有效，尤其是在预测更准确的响应策略方面。BlenderBotJoint在第一个解码步骤预测一个单一策略，而MISC使用策略码本建模混合响应策略，允许解码器学习并更自然地表现出同理心。比较结果表明，将反应策略作为一项额外任务进行预测，并考虑情绪支持对话的策略复杂度是有益的。

图3 MISC与各个系统对比结果

本文还采用人为审核response来表现生成的质量，并采用了三种度量值Flu（内容的流畅性）、know（内容是否提供了post之外的新信息）、EMP(反馈是否具有共情效果)。如下图5所示。

图4 人为评价的各个系统对比结果

从图4中可见，BlenderBotJoint和MISC在流畅性方面显著优于其他模型型。MISC产生了最高的Kown，这表明MISC方法产生的响应包含与上下文相关的更具体的信息。Multi-factor-aware decoder通过混合预测策略成功地利用了COMET的心理知识。总的来说，MISC在几乎所有指标上都表现最好。