【工大SCIR】对话中的情感分析与生成简述

2020 年 6 月 14 日 深度学习自然语言处理

来自：工大SCIR Lab

作者：哈工大SCIR 陆鑫，田一间

介绍

近年来，随着自然语言处理技术的快速发展，人机对话系统受到了很多关注，并逐渐成为了学术界和工业界的研究热点。人机对话系统不断发展进步，应用范围不断扩大，人们对它也有了更高的要求，希望机器在关注回复内容的基础上，可以与人进行更深入的交流。

近期的一些工作表明^{[10, 13, 15,16, 18-21, 23]}，在人机对话系统中，除了回复内容之外，机器与人的情感交流也是一个重要问题。人类可以通过语言进行情感上的交流，获得情感上的慰藉，对话系统想要和人类进行有效的情感沟通，就必须具备一定的情感能力。具体来说，机器一方面需要对用户情感进行识别和判断，另一方面也需要在其回复中融入合适的情感。因此，如何在对话中赋予机器理解情感和表达情感的能力，是人机对话和情感分析领域面临的新的机遇和挑战。

本文主要介绍对话情感中的两个关键任务：对话情绪识别、对话情感生成，梳理了这两个任务常用的数据集和相关方法。本文在接下来的部分首先阐述对话情绪识别任务的相关内容；接着围绕对话情感生成任务展开介绍；最后是全文总结和对未来的展望。

对话情绪识别

任务介绍

对话情绪识别是一个分类任务，旨在对一段对话中的话语进行情绪分类。任务的输入是一段连续的对话，输出是这段对话中所有话语的情绪，图1给出了一个简单的示例。由于对话本身具有很多要素，话语的情绪识别并不简单等同于单个句子的情绪识别，而是需要综合考虑对话中的背景、上下文、说话人等信息，这些都是对话情绪识别任务中独特的挑战。

对话情绪识别可广泛应用于各种对话场景中，如社交媒体中评论的情感分析、人工客服中客户的情绪分析等。此外，对话情绪识别还可应用于聊天机器人中，实时分析用户的情绪状态，实现基于用户情感驱动的回复生成。

图1 对话情绪识别示例^[1]

数据集介绍

IEMOCAP^[2]。南加州大学的SAIL实验室收集，由人扮演的双人对话，12小时的多模态视听数据。10个专业演员（5男5女），一共分为5个Session，每个Session分配1男1女。对话分为两部分，一部分是固定的剧本，另一部分是给定主题情景下的自由发挥。151段对话，共7433句。标注了6类情绪：Neutral, Happiness, Sadness, Anger, Frustrated, Excited，非中性情绪占比77%。IEMOCAP是对话情绪识别中最常用的数据集，质量较高，优点是有多模态信息，缺点是数据规模较小。

数据集链接：https://sail.usc.edu/iemocap/

SEMAINE ^[3]。SEMAINE数据库收集的多模态对话数据，由四个固定形象的机器人与人进行对话，曾用于AVEC2012挑战赛。AVEC2012使用的数据有95段对话，共5798句。标注了4个情感维度：Valence (愉悦度), Arousal (激活度), Expectancy (预期), Power (力量)。Valence表示情感积极的程度，Arousal表示兴奋的程度，Expectancy表示与预期相符的程度，Power表示情感影响力。其中Valence、Arousa和Expectancy为[-1, 1]范围内的连续值，Power为大于等于0的连续值。SEMAINE是对话情绪识别中常用的数据集之一，缺点是数据规模较小。

数据集链接：https://semaine-db.eu/

DailyDialog ^[4]。高质量多轮对话数据集，纯文本，噪声小，对话反映不同主题的日常生活，无固定说话人。数据集除了7类情绪标注，还有10类主题标注以及4类对话行为标注。12218段对话，共103607句。标注了7类情绪：Neutral, Happiness, Surprise, Sadness, Anger, Disgust, Fear，非中性情绪占比16.8%。DailyDialog在对话情绪识别中应用较少，优点是数据规模较大，缺点是中性情绪占比过高。

数据集链接：http://yanran.li/dailydialog

EmotionLines ^[5]。来源于老友记（多人对话）和私人Facebook聊天记录（双人对话），纯文本，有固定说话人。曾用于SocialNLP 2018 EmotionX Challenge。内容上两部分独立，各1000段对话，共29245句。标注了7类情绪：Neutral, Happiness, Surprise, Sadness, Anger, Disgust, Fear，非中性情绪占比44.5%。EmotionLines在对话情绪识别中应用较少，通常使用多模态的MELD数据集。

数据集链接：http://doraemon.iis.sinica.edu.tw/emotionlines/index.html

EmoContext ^[6]。纯文本双人对话，每段对话三句，仅最后一句有情感标签。用于SemEval-2019 Task 3。38421段对话，共115263句。标注了4类情绪：Happiness, Sadness, Anger, Other，非中性情绪占比42.8%。 E moContext在对话情绪识别中应用较少，优点是数据规模较大，缺点是对话长度过短和仅标注最后一句。

数据集链接：https://www.humanizing-ai.com/emocontext.html

MELD ^[7]。来源于老友记，多人对话形式，是EmotionLines老友记部分的多模态扩充（文本+视频）。1433段对话，共13708句。标注了7类情绪：Neutral, Happiness, Surprise, Sadness, Anger, Disgust, Fear和3类情感：Positive, Negative, Neutral，非中性情绪占比53%。 MELD是对话情绪识别中常用的数据集之一，优点是数据集质量较高并且有多模态信息，缺点是数据集中的对话涉及到的剧情背景太多，情绪识别难度很大。

数据集链接：https://affective-meld.github.io/

对话情感生成

任务介绍

对话情感生成是一个生成任务，旨在对话中生成蕴含情感、有针对性的回复。对于待生成回复的情感，一般有两种观点：一种认为待生成回复的情感需要明确指出，这类做法的输入是对话上文和目标情感，输出是蕴含该情感的回复，其优点是生成情感灵活可控，缺点是需要大规模情感标注的对话语料；另一种则认为待生成回复的情感已经隐含在对话上文之中，不需要明确指出，因此这类做法只需要提供对话上文，其优点是可利用已有的大规模对话语料，缺点是生成的情感不易控制。图6给出了对话情感生成的一个简单示例。

对话情感生成主要应用在聊天机器人之中，可以让聊天机器人在显式或隐式理解用户情感的基础上，生成情感合理的回复，解决聊天机器人的情感表达问题。

图6 对话情感生成任务示例 ^[13]

数据集介绍

STC ^[12]。新浪微博数据，无情感标注，中文，由问题和回复组成，可视为单轮对话，共440万对，问题与回复的句子平均长度分别为20、15。 ECM ^[13]中使用Bi-LSTM情感分类器自动标注了六类情感：Angry, Disgust, Happy, Like, Sad, Other。 STC是对话情感生成中常用的数据集之一，优点是数据规模大，缺点是无人工情感标注，需要借助情感分类器自动标注，因此数据质量一般。

数据集链接：http://ntcir12.noahlab.com.hk/stc.htm

Cornell Movie Dialogs ^[14]。康奈尔大学收集的电影对话语料，无情感标注，22万段对话，30万个句子，涉及617部电影中的9035个角色，无标注，噪声相对较小。 ANRG ^[15]和 EMOTICONS ^[16]中用于seq2seq模型训练。 Cornell Movie Dialogs是对话情感生成中常用的数据集之一，优点是数据质量较高，缺点是无人工情感标注。

数据集链接：http://www.cs.cornell.edu/~cristian/Cornell_Movie-Dialogs_Corpus.html

OpenSubtitles ^[17]。多语言的电影字幕数据库，数据量大，无情感标注，噪声相对较大。 ADGEE ^[18]使用OpenSubtitles2016，过滤后有1130万句子，训练了Bi-LSTM情感分类器进行自动情感标注。 EMOTICONS ^[16]使用OpenSubtitles2018，过滤后的数据有至少四轮对话，250万句子。 OpenSubtitles是对话情感生成中常用的数据集之一，优点是数据规模巨大，缺点是噪声大且无人工情感标注。

数据集链接：http://opus.nlpl.eu/OpenSubtitles-v2018.php

Twitter ^[19]。Twitter上获取的带emoji表情的对话，由问题和回复组成，可视为单轮对话，共66万对。使用句子带的emoji表情作为句子标注，共64种标签。 Mojitalk ^[19]使用该语料训练模型，进行情感回复生成。 Mojitalk^[19]构造了该数据集，并使用该数据集训练模型进行情感回复生成。

数据集链接：https://github.com/claude-zhou/MojiTalk

DailyDialog ^[4]。高质量多轮对话数据集，10万句，详见对话情绪识别数据集介绍。 AR-S2S ^[20]使用该数据集作为测试集，评估模型在不同领域对话的泛化性能。

数据集链接：http://yanran.li/dailydialog

SEMAINE ^[3]。情绪识别用的数据集，有情感属性，无情感类别标注。AAAI 2018的 Emo-HERD ^[21]使用工具为其标注情感。约0.5万句，详见对话情绪识别数据集介绍。

数据集链接：https://semaine-db.eu/

总结

本文主要梳理了对话情感中的两个任务：对话情绪识别、对话情感生成，总结了这两个任务相关的数据集和一些近期工作，这些工作解决了各自任务的很多关键挑战。未来，两个任务的关联融合可能会带来一些新的挑战，这可能也是一个潜在的研究方向。

参考资料

[1]

S. Poria, N. Majumder, R. Mihalcea, and E. Hovy. Emotion Recognition in Conversation: Research Challenges, Datasets, and Recent Advances. IEEE Access. 2019.

[2]

C. Busso et al. IEMOCAP: interactive emotional dyadic motion capture database. Lang Resources & Evaluation. 2008.

[3]

G. McKeown, M. Valstar, R. Cowie, M. Pantic, and M. Schroder. The SEMAINE Database: Annotated Multimodal Records of Emotionally Colored Conversations between a Person and a Limited Agent. IEEE Transactions on Affective Computing. 2012.

[4]

Y. Li, H. Su, X. Shen, W. Li, Z. Cao, and S. Niu. DailyDialog: A Manually Labelled Multi-turn Dialogue Dataset. IJCNLP. 2017.

[5]

S.-Y. Chen, C.-C. Hsu, C.-C. Kuo, Ting-Hao, Huang, and L.-W. Ku. EmotionLines: An Emotion Corpus of Multi-Party Conversations. arXiv. 2018.

[6]

A. Chatterjee, U. Gupta, M. K. Chinnakotla, R. Srikanth, M. Galley, and P. Agrawal. EmoContext: Understanding Emotions in Text Using Deep Learning and Big Data. Computers in Human Behavior. 2019.

[7]

S. Poria, D. Hazarika, N. Majumder, G. Naik, E. Cambria, and R. Mihalcea. MELD: A Multimodal Multi-Party Dataset for Emotion Recognition in Conversations. ACL. 2019.

[8]

S. Poria, E. Cambria, D. Hazarika, N. Majumder, A. Zadeh, and L.-P. Morency. Context-Dependent Sentiment Analysis in User-Generated Videos. ACL. 2017.

[9]

D. Hazarika, S. Poria, A. Zadeh, E. Cambria, L.-P. Morency, and R. Zimmermann. Conversational Memory Network for Emotion Recognition in Dyadic Dialogue Videos. NAACL. 2018.

[10]

D. Hazarika, S. Poria, R. Mihalcea, E. Cambria, and R. Zimmermann. ICON: Interactive Conversational Memory Network for Multimodal Emotion Detection. EMNLP. 2018.

[11]

N. Majumder, S. Poria, D. Hazarika, R. Mihalcea, A. Gelbukh, and E. Cambria. DialogueRNN: An Attentive RNN for Emotion Detection in Conversations. arXiv. 2019.

[12]

L. Shang, Z. Lu, and H. Li. Neural Responding Machine for Short-Text Conversation. ACL. 2015.

[13]

H. Zhou, M. Huang, T. Zhang, X. Zhu, and B. Liu. Emotional Chatting Machine: Emotional Conversation Generation with Internal and External Memory. AAAI. 2018.

[14]

C. Danescu-Niculescu-Mizil and L. Lee. Chameleons in Imagined Conversations: A New Approach to Understanding Coordination of Linguistic Style in Dialogs. CMCL. 2011.

[15]

N. Asghar, P. Poupart, J. Hoey, X. Jiang, and L. Mou. Affective Neural Response Generation. in Advances in Information Retrieval. 2018.

[16]

P. Colombo, W. Witon, A. Modi, J. Kennedy, and M. Kapadia. Affect-Driven Dialog Generation. NAACL. 2019.

[17]

J. Tiedemann. News from OPUS : A Collection of Multilingual Parallel Corpora with Tools and Interfaces. 2009.

[18]

C. Huang, O. Zaïane, A. Trabelsi, and N. Dziri. Automatic Dialogue Generation with Expressed Emotions. NAACL. 2018.

[19]

X. Zhou and W. Y. Wang. MojiTalk: Generating Emotional Responses at Scale. ACL. 2018.

[20]

P. Zhong, D. Wang, and C. Miao. An Affect-Rich Neural Conversational Model with Biased Attention and Weighted Cross-Entropy Loss. AAAI. 2019.

[21]

N. Lubis, S. Sakti, K. Yoshino, and S. Nakamura. Eliciting Positive Emotion through Affect-Sensitive Dialogue Response Generation: A Neural Network Approach. AAAI. 2018.

[22]

S. Ghosh, M. Chollet, E. Laksana, L.-P. Morency, and S. Scherer. Affect-LM: A Neural Language Model for Customizable Affective Text Generation. ACL. 2017.

[23]

Z. Song, X. Zheng, L. Liu, M. Xu, and X. Huang. Generating Responses with a Specific Emotion in Dialog. ACL. 2019.

本期责任编辑：李忠阳

本期编辑：顾宇轩

添加个人微信，备注： 昵称-学校（公司）-方向 ，即可获得

1. 快速学习深度学习五件套资料

2. 进入高手如云DL&NLP交流群