尽管基于文本的情感识别方法已取得显著成果,但现实世界中的对话系统往往需要比单一模态所能提供的更细腻的情感理解。因此,「多模态对话情感识别(MERC)」已成为提升人机交互自然性和情感理解能力的重要研究方向。其目标是通过融合文本、语音和视觉信号等多种模态的信息,准确识别用户情感。 本综述系统性地回顾了MERC的研究现状,包括其研究动机、核心任务、代表性方法和评估策略。我们还进一步探讨了该领域的最新发展趋势,指出了面临的关键挑战,并展望了未来研究方向。随着对情感智能系统的关注日益增加,本综述为推动MERC研究提供了及时而有价值的参考。

1 引言

对话情感识别(Emotion Recognition in Conversations, ERC)(Peng 等, 2022;Deng 和 Ren, 2023)是自然语言处理(NLP)中日益重要的研究任务,旨在识别对话中每个发言所表达的情绪状态。与传统的孤立句子情感分类不同,ERC 需要理解各个发言之间的相互关系,并跟踪对话过程中特定说话人的上下文信息(Gao 等, 2024)。

ERC 的研究热度不断上升,源于其在多个现实应用场景中的潜力,例如社交媒体监测(Kumar 等, 2015)、智能医疗服务(Hu 等, 2021b)以及情感感知对话系统的设计(Jiao 等, 2020;Gong 等, 2023)。 然而,人类情绪通常通过多种感知通道传达,包括听觉、视觉和语言。因此,近年来的研究(如 Ma 等, 2024a;Van 等, 2025;Dutta 和 Ganapathy, 2025)越来越多地聚焦于多模态对话场景,这一方向被称为「多模态对话情感识别」(Multimodal Emotion Recognition in Conversations, MERC)。研究者试图通过融合来自不同模态的上下文信息,识别特定发言的情绪状态,这些状态通常包括诸如快乐、愤怒和憎恨等细腻的个体情感(Poria 等, 2019b;Gong 等, 2024),从而提升对话中情感识别的效果。图1展示了一个结合文本、音频和视觉输入的ERC示例。

多模态情感识别(Multimodal Emotion Recognition, MER)本身也日益受到关注,主要源于多模态融合的挑战性,促使研究扩展到非对话和对话两种场景。现有综述(如 A.V. 等, 2024;Aruna Gladys 和 Vetriselvi, 2023)主要聚焦于非对话场景的MER,忽略了对话者建模和上下文建模等关键问题。Fu 等(2023)回顾了单模态与多模态的对话情感识别,但其主要聚焦于特征融合,未能深入探讨跨模态对齐、推理能力、模态缺失和模态冲突等核心挑战。 尽管MERC受到越来越多的关注,但该任务仍相对缺乏深入研究。现有综述(Fu 等, 2023;Zhang 和 Tan, 2024)在某些方面已滞后于最新进展,尤其是在多模态大语言模型(Multimodal Large Language Models, MLLMs)崛起之后。为填补这一空白,本文对MERC进行了全面而及时的综述。我们首先介绍任务定义与综述方法(第§2节)、基准数据集与评估方法(第§3节),接着回顾预处理技术(第§4节),分类整理近期研究方法(第§5节),并分析面临的关键挑战及未来发展方向(第§6节)。 总之,本文的主要贡献包括三方面: * 汇总近期MERC研究进展:系统回顾并整合近年来MERC领域的最新研究成果,涵盖多样化的数据集与方法。 * 总结与比较不同MERC方法:评估多种MERC方法的优劣,提供理论洞见与实践指导,帮助研究者与工程师选择适合的解决方案。 * 提出挑战与未来方向:识别当前MERC领域中的关键开放问题,并提出若干潜在的研究方向,以指导今后的研究与开发工作。

成为VIP会员查看完整内容
8

相关内容

现实世界中的信息通常以不同的模态出现。例如,图像通常与标签和文本解释联系在一起;文本包含图像以便更清楚地表达文章的主要思想。不同的模态由迥异的统计特性刻画。例如,图像通常表示为特征提取器的像素强度或输出,而文本则表示为离散的词向量。由于不同信息资源的统计特性不同,发现不同模态之间的关系是非常重要的。多模态学习是一个很好的模型,可以用来表示不同模态的联合表示。多模态学习模型也能在观察到的情况下填补缺失的模态。多模态学习模型中,每个模态对应结合了两个深度玻尔兹曼机(deep boltzmann machines).另外一个隐藏层被放置在两个玻尔兹曼机上层,以给出联合表示。
多智能体协作机制:大语言模型综述
专知会员服务
58+阅读 · 1月14日
工业机器视觉中的生成式人工智能综述
专知会员服务
46+阅读 · 2024年9月1日
知识图谱与大模型融合综述
专知会员服务
115+阅读 · 2024年6月30日
通用多模态人工智能:架构、挑战和机遇综述
专知会员服务
51+阅读 · 2024年6月29日
大型语言模型遇上文本中心的多模态情感分析:综述
专知会员服务
24+阅读 · 2024年6月13日
《大型语言模型持续学习》综述
专知会员服务
88+阅读 · 2024年4月26日
专知会员服务
123+阅读 · 2020年12月9日
深度学习目标检测方法综述
专知会员服务
280+阅读 · 2020年8月1日
数据受限条件下的多模态处理技术综述
专知
19+阅读 · 2022年7月16日
基于模型的强化学习综述
专知
38+阅读 · 2022年7月13日
综述| 当图神经网络遇上强化学习
图与推荐
34+阅读 · 2022年7月1日
多模态视觉语言表征学习研究综述
专知
27+阅读 · 2020年12月3日
实体关系抽取方法研究综述
专知
11+阅读 · 2020年7月19日
多模态深度学习综述,18页pdf
专知
50+阅读 · 2020年3月29日
干货 | 基于深度学习的目标检测算法综述
AI科技评论
18+阅读 · 2018年9月1日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Arxiv
169+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
463+阅读 · 2023年3月31日
Arxiv
76+阅读 · 2023年3月26日
Arxiv
169+阅读 · 2023年3月24日
Arxiv
24+阅读 · 2023年3月17日
VIP会员
相关VIP内容
多智能体协作机制:大语言模型综述
专知会员服务
58+阅读 · 1月14日
工业机器视觉中的生成式人工智能综述
专知会员服务
46+阅读 · 2024年9月1日
知识图谱与大模型融合综述
专知会员服务
115+阅读 · 2024年6月30日
通用多模态人工智能:架构、挑战和机遇综述
专知会员服务
51+阅读 · 2024年6月29日
大型语言模型遇上文本中心的多模态情感分析:综述
专知会员服务
24+阅读 · 2024年6月13日
《大型语言模型持续学习》综述
专知会员服务
88+阅读 · 2024年4月26日
专知会员服务
123+阅读 · 2020年12月9日
深度学习目标检测方法综述
专知会员服务
280+阅读 · 2020年8月1日
相关资讯
数据受限条件下的多模态处理技术综述
专知
19+阅读 · 2022年7月16日
基于模型的强化学习综述
专知
38+阅读 · 2022年7月13日
综述| 当图神经网络遇上强化学习
图与推荐
34+阅读 · 2022年7月1日
多模态视觉语言表征学习研究综述
专知
27+阅读 · 2020年12月3日
实体关系抽取方法研究综述
专知
11+阅读 · 2020年7月19日
多模态深度学习综述,18页pdf
专知
50+阅读 · 2020年3月29日
干货 | 基于深度学习的目标检测算法综述
AI科技评论
18+阅读 · 2018年9月1日
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
微信扫码咨询专知VIP会员