摘要—多模态情感计算(MAC)由于其在人类行为和意图分析中的广泛应用,尤其是在以文本为主导的多模态情感计算领域中,受到了越来越多的关注。本综述从自然语言处理(NLP)视角出发,介绍了多模态情感计算的最新趋势,涵盖四个热门任务:多模态情感分析、多模态对话情感识别、多模态基于方面的情感分析以及多模态多标签情感识别。本综述的目标是探索当前多模态情感研究的现状,识别发展趋势,突出不同任务之间的相似性和差异性,并为多模态情感计算在NLP视角下的最新进展提供全面报告。本综述涵盖了任务的形式化,概述了相关研究工作,描述了基准数据集,并详细介绍了每个任务的评估指标。此外,本文简要讨论了涉及面部表情、声学信号、生理信号和情感原因的多模态情感计算研究。我们还讨论了多模态情感计算中的技术方法、挑战及未来发展方向。为了支持进一步的研究,我们发布了一个汇集了多模态情感计算相关工作的资源库,提供了详细的资源和参考文献,供研究社区使用。

情感计算结合了计算机科学、心理学和认知科学的专业知识,其目标是赋予机器识别、解释和模拟人类情感的能力【1】–【6】。当今世界充满了各种模态——我们通过视觉感知物体,通过听觉感受声音,通过触觉感受物体的质地,通过嗅觉闻到气味,等等。模态是指体验的感知或发生方式,通常与视觉或触觉等感官模态相关,这些模态对交流和感知至关重要。在多个领域的多模态学习取得重大进展【7】【8】后,多模态情感计算的进展加速并受到越来越多的关注。

多模态情感计算旨在开发能够在多种模态下解释和推理情感或情绪状态的模型。在其早期阶段,情感计算的研究主要集中在单一模态任务上,分别研究基于文本、音频和视觉的情感计算。例如,D-MILN【9】是一个文本情感分类模型,而工作【10】利用训练在原始音频上的双向长短期记忆(BiLSTM)模型预测群体反应的平均情感。如今,情感分析已广泛应用于各种模态中,用于市场研究、品牌监测、客户服务分析和社交媒体监控等应用。多媒体技术的最新进展【11】–【14】拓宽了信息传播的渠道,新闻、微博等社交媒体平台以及视频内容的涌现将文本(口语特征)、声学(节奏、音高)和视觉(面部属性)信息整合起来,用于全面分析人类情感。例如,Xu等人【15】将图像模态数据引入传统的基于文本的方面级情感分析,创建了多模态基于方面的情感分析新任务。同样,Wang等人【16】将文本情感原因对提取扩展到多模态对话环境中,利用多模态信号(文本、音频和视频)增强模型理解情感及其原因的能力。

多模态情感计算任务与机器学习中的多个学习范式密切相关,包括迁移学习【17】–【19】、多模态学习【20】【21】、多任务学习【22】–【24】和语义理解【25】【26】。在迁移学习方面,它使得在一个领域训练的情感分析模型能够适应其他领域的有效表现。通过在目标领域有限的数据上微调预训练模型,这些模型可以迁移到新领域,从而提升其在多模态情感计算任务中的表现。在多模态学习中,跨模态注意力动态对齐并聚焦于来自不同模态的相关信息,通过突出关键特征及其交互来增强模型捕捉情感的能力。在多任务学习中,跨情感计算任务和模态的共享表示通过从文本、音频和视频中捕捉共同的情感相关特征来提升表现。 最近,多模态学习的研究通过在大规模多模态数据集上预训练多模态模型,进一步提升了下游任务的性能,如多模态情感分析【27】–【30】。随着预训练模型规模的扩大,参数高效的迁移学习方法如适配器【31】、提示【32】、指令微调【33】和上下文学习【34】【35】等不断涌现。越来越多的多模态情感计算研究利用这些参数高效的迁移学习方法,将预训练模型(如单模态预训练模型或多模态预训练模型)的知识迁移到下游情感任务中,通过进一步微调预训练模型来提升模型性能。例如,Zou等人【36】设计了一个多模态提示Transformer(MPT)用于跨模态信息融合。UniMSE【37】提出了一种基于适配器的模态融合方法,它将声学和视觉信号注入T5模型中,与多层次的文本信息进行融合。

多模态情感计算涵盖了情感分析、观点挖掘和情感识别等任务,使用的模态包括文本、音频、图像、视频、生理信号和触觉反馈。本综述主要关注三种关键模态:自然语言、视觉信号和声音信号。我们在本综述中突出了四个主要任务:多模态情感分析(MSA)、多模态对话中的情感识别(MERC)、多模态基于方面的情感分析(MABSA)和多模态多标签情感识别(MMER)。多模态情感计算领域已有大量研究,且已有多篇综述【14】【38】–【40】发表。然而,这些综述主要集中于特定的情感计算任务或单一模态,忽略了跨多任务的多模态情感计算的总体概况,以及这些任务之间的一致性和差异性。

本综述的目标有两点。首先,旨在为初学者提供多模态情感计算的全面概述,探索情感分析中的深度学习,详细介绍任务、输入、输出及相关数据集。其次,为研究人员提供反思过去发展、探索未来趋势的视角,并研究多模态情感分析和情感识别领域的技术方法、挑战及研究方向。


综述的结构

第III节概述了多模态情感任务的任务形式化及应用场景。第IV节介绍了特征提取方法和最近的多模态预训练模型(如CLIP、BLIP、BLIP2)。第V节从多模态融合和多模态对齐两个角度分析了多模态情感研究,并简要总结了用于进一步微调预训练模型的参数高效迁移方法。第VI节回顾了关于MSA、MERC、MABSA和MMER的文献,重点讨论了多任务学习、预训练模型、增强知识和上下文信息。此外,第VII节总结了多模态数据集,第VIII节涵盖了每个多模态情感计算任务的评估指标。在回顾多模态情感计算工作后,第IX节简要回顾了基于面部表情、声学信号、生理信号和情感原因的多模态情感计算工作,突出其一致性、差异性及其最新趋势。第X节从三个方面展望了未来工作:多模态情感计算任务的统一、外部知识的引入以及较少研究的模态情感计算。最后,第XI节总结了本综述及其对多模态情感计算社区的贡献。

多模态情感计算中的多模态学习

多模态学习涉及从不同模态中学习表示。通常,多模态模型应首先基于语义对模态进行对齐,然后再融合多模态信号。在对齐后,模型将多个模态组合成一个表示向量。

A. 初步概述

随着预训练模型规模的扩大,出现了诸如适配器【31】、提示【32】、指令微调【33】和上下文学习【34】【35】等参数高效的迁移学习方法。在这种范式下,预训练的语言模型(LMs)不再通过目标工程适应下游任务,而是通过提示、指令微调和上下文学习,将下游任务重新格式化,使其更像原始LM训练期间解决的任务。例如,在视觉语言模型(VLMs)中,像GPT-4V【65】和Flamingo【67】的提示使用,使模型能够基于视觉和文本输入的结合来解释和生成输出。与提示不同,指令微调属于提示学习范式。此外,像InstructBLIP【70】和FLAN【72】这样的模型表明,指令微调不仅提高了模型对指令的遵循性,还增强了其跨任务的泛化能力。在多模态情感计算领域,研究人员可以利用这些参数高效的迁移学习方法(例如适配器、提示和指令微调),将预训练模型(例如单模态预训练模型或多模态预训练模型)的知识迁移到下游情感任务中,并通过情感数据集进一步微调预训练模型。鉴于多模态情感计算涉及多模态学习,因此我们从多模态融合和多模态对齐的角度分析多模态情感计算的相关工作,如图1所示。

B. 多模态融合

多模态信号是异质的,来源于各种信息源,因此将多模态信号整合为一个表示至关重要。Tasi等人【74】根据融合阶段将多模态融合总结为早期融合、晚期融合和中间融合。早期融合在模型处理之前,将来自不同模态的特征在输入级别进行组合。晚期融合则通过单独的子网络分别处理来自不同模态的特征,并在做出最终决策之前的晚期阶段将这些子网络的输出进行组合。晚期融合使用单模态的决策值,并通过如平均【121】、投票方案【122】、基于通道噪声的加权【123】和信号方差【124】等机制将它们结合起来,或者通过学习模型【6】【125】进行融合。这两种融合策略面临一些问题。例如,特征级别的早期融合在融合操作后可能低估模态内的动态,而决策级别的晚期融合在融合操作之前可能难以捕捉模态间的动态。不同于前两种方法的地方在于,中间融合是在模型学习器的中间层结合来自不同模态的特征,允许模态在不同的处理阶段进行更多的交互,从而可能产生更丰富的表示【37】【126】【127】。基于这些融合策略,我们从三个方面回顾了多模态融合:跨模态学习、模态一致性与差异性、多阶段模态融合。图2展示了模态融合的三个方面。

**1) 跨模态学习

跨模态学习关注的是通过引入模态间的依赖关系和交互来实现更好的模态融合。早期的多模态融合工作【73】主要在特征空间中进行几何操作,以融合多种模态。最近,跨模态学习的常见方式是引入基于注意力的学习方法来建模模态间和模态内的交互。例如,MuLT【74】提出了多模态Transformer,用于学习模态间的交互。Chen等人【75】通过三模态协同交互增强了模态内和模态间的特征,并统一了三种模态的特性(跨模态)。杨等人【76】提出了跨模态BERT(CM-BERT),旨在基于预训练的BERT模型对文本和音频模态的交互进行建模。Lin等人【77】探讨了模态内和模态间表示的复杂关系,用于情感提取。最近,Tang等人【78】提出了多模态动态增强模块,用于捕捉模态内的情感上下文,减少辅助模态的模态内冗余。Huang等人【79】提出了一个基于跨模态注意力的文本中心融合网络(TeFNA),这个多模态融合网络利用跨模态注意力建模未对齐的多模态时间信息。

在情感识别领域,CMCF-SRNet【80】是一个跨模态上下文融合和语义精炼网络,包含一个跨模态局部约束Transformer和基于图的语义精炼Transformer,旨在探索话语间的多模态交互和依赖关系。Shi等人【81】提出了一个基于注意力的相关性感知多模态融合框架MultiEMO,该框架基于双向多头跨注意力层捕捉文本、音频和视觉模态间的映射关系。总之,跨模态学习主要关注模态间关系的建模。

**2) 模态一致性与差异性

模态一致性是指对于同一样本,不同模态之间共享的特征空间,而模态差异性则突出每种模态提供的独特信息。大多数多模态融合方法将表示分为模态不变(一致性)和模态特定(差异性)两个组成部分。模态一致性有助于处理缺失模态,而模态差异性则利用每个模态的互补信息来改进整体数据理解。例如,几项研究【86】【87】通过对比学习探索了模态一致性与差异性的学习。Han等人【85】通过最大化模态间及模态内的互信息来探索模态一致性。另一项研究【86】提出了一个混合对比学习框架,该框架同时进行模态内/模态间对比学习和半对比学习,建模跨模态交互,保持类间关系,并减少模态差距。此外,Zheng等人【87】将模态对之间的互信息最大化与输入数据和相应特征之间的互信息最小化相结合。该方法旨在提取模态不变且任务相关的信息。模态一致性也可以被视为将多种模态投射到共同潜在空间(模态不变表示)的过程,而模态差异性则指将模态投射到模态特定的表示空间。例如,Hazarika等人【88】提出了一种方法,将每种模态投射到模态不变和模态特定的空间中。他们实现了一个解码器,通过模态不变和模态特定特征来重建原始模态表示。AMuSE【84】提出了一个多模态注意力网络,通过联合学习模式特定的外周和中央网络,捕捉不同层次空间抽象下的跨模态交互。对于细粒度的情感分析,Xiao等人【89】提出了CoolNet,以提高视觉语言模型在无缝整合视觉和语言信息方面的性能。Zhang等人【90】通过探索模态一致性,提出了一个基于融合判别注意力网络的方面级情感分类模型。

**3) 多阶段模态融合

多阶段多模态融合【128】【129】指的是将从多个阶段或多个尺度提取的模态信息结合起来,以融合模态表示。Li等人【94】设计了一个两阶段对比学习任务,学习相同情感类别数据的相似特征,并为不同情感类别的数据学习可区分的特征。HFFN【95】将多模态融合过程分为分解、征服和组合三个部分,在每个局部块学习局部交互,并通过跨局部交互传递信息来探索全局交互。与HFFN的工作不同,Li等人【96】对齐并融合了文本和图像的token级特征,设计了基于标签的对比学习和基于数据的对比学习,以捕捉多模态数据中与情感相关的共同特征。一些工作【97】将融合过程分解为多个阶段,每个阶段专注于部分多模态信号,以实现更专门和有效的融合。此外,CTFN【130】提出了一种新的特征融合策略,按照层次化的方式进行,首先两两融合模态,然后再融合三种模态。此外,在多个层次的模态融合方面也取得了进展,例如,Li等人【99】提出了一种基于多层次相关性挖掘和自监督多任务学习的多模态情感分析方法,Peng等人【100】提出了一种细粒度模态标签的多阶段网络(FmlMSN),利用来自文本、音频、图像及其组合的七种情感标签,在不同粒度上进行信息整合。研究人员通常专注于模型决策前的尺度级模态对齐和模态融合。Sharafi等人【93】提出了一种新的融合方法,利用不同的尺度进行多模态情感识别。

C. 多模态对齐

多模态对齐涉及在融合多模态数据之前对模态语义进行同步。一个关键挑战是处理缺失模态的情况,例如由于摄像头关闭、用户沉默或设备故障导致语音和文本同时缺失。由于始终拥有所有模态的假设在现实中通常不切实际,因此多模态对齐必须解决这些缺失。此外,它还涉及通过语义对齐来对齐图像、文本和音频中的对象。因此,我们从处理缺失模态和实现语义对齐的角度讨论多模态对齐。图3展示了多模态对齐的示意图。

**1) 缺失模态的对齐

在实际场景中,数据收集有时会由于不可预见的事件同时丢失某些模态。虽然多模态情感计算通常假设所有模态都可用,但这一假设在实践中经常失败,这可能会导致在缺少某些模态时,模态融合和对齐模型出现问题。我们将现有的处理缺失模态的方法分为四类。第一类是数据增强方法,通过随机删除输入来模拟缺失模态的情况。Parthasarathy等人【107】提出了一种策略,在训练过程中随机删除视频输入的剪辑或帧,模拟现实世界场景。Wang等人【108】通过训练情感识别模型,迭代性地进行数据增强,处理话语级模态缺失问题。第二类基于生成方法,直接预测给定可用模态的缺失模态【131】。例如,Zhao等人【106】提出了缺失模态想象网络(MMIN),在不同缺失模态条件下,根据可用模态预测任何缺失模态的表示,以应对不确定的缺失模态问题。Zeng等人【109】提出了基于集成的缺失模态重建(EMMR)网络,以检测并恢复关键缺失模态的语义特征。Yuan等人【110】提出了一种基于Transformer的特征重建网络(TFR-Net),该网络通过增强模型在非对齐模态序列中随机缺失的鲁棒性。Luo等人【111】提出了多模态重建与对齐网络(MRAN),专门处理缺失模态问题,尤其是缓解文本模态缺失带来的性能下降。

第三类旨在学习联合多模态表示,这些表示能够包含基于组合的视觉和文本输入的相关信息。例如,Ma等人【133】提出了一个统一的深度学习框架,通过相关分析有效处理音视频情感识别中的缺失标签和缺失模态问题。Zeng等人【113】提出了一个标签辅助Transformer编码器网络(TATE),用于处理不确定的缺失模态问题,该网络设计了一个标签编码模块,以覆盖单模态和多模态缺失的情况,从而引导网络对缺失模态的关注。Zuo等人【114】提出使用不变特征的缺失模态想象网络(IF-MMIN),该网络包含不变特征学习策略和基于不变特征的想象模块(IF-IM)。通过这两种策略,IF-MMIN能够在预测缺失模态时缓解模态差距,从而提高多模态联合表示的鲁棒性。Zhou等人【116】在缺失一种或多种模态的情况下,提出了一种新颖的脑肿瘤分割网络。该网络由三个子网络组成:一个特征增强生成器、一个相关性约束模块和一个分割网络。 最后一类是基于翻译的方法。Tang等人【98】提出了耦合翻译融合网络(CTFN),通过耦合学习建模双向交互,确保在缺失模态情况下的鲁棒性。Liu等人【115】提出了一种基于模态翻译的多模态情感分析模型(MTMSA),该模型对不确定的缺失模态具有鲁棒性。总而言之,关于缺失模态对齐的研究集中在基于现有模态信息的缺失模态重建和学习。

**2) 跨模态语义对齐

语义对齐旨在找到同一样本中多种模态之间的连接,指的是通过一种模态信息搜索另一种模态信息,反之亦然。在多模态情感分析领域,Tsai等人【74】利用跨模态和多尺度模态对齐,分别在语义层面实现模态一致性。ScaleVLAD【200】提出了一种融合模型,通过共享的局部聚合描述符向量,从文本、视频和音频中聚集多尺度表示,以改进未对齐的多模态情感分析。Yang等人【104】将未对齐的多模态序列数据转换为一个具有异质节点和边的图,捕捉模态间和时间上的丰富交互。Lee等人【201】将音频和基础文本信号按相同步长分段,使得顺序信号的相同时间步覆盖信号的相同时间跨度。Zong等人【202】利用多次双向翻译,与传统的翻译方法相比,产生了双倍的多模态融合嵌入。Wang等人【203】提出了一种基于Transformer的多模态编码–解码翻译网络,并采用了以文本为主要信息、声音和图像为次要信息的联合编码–解码方法。Zhang等人【120】提出了一种新颖的多级对齐方法,用于弥合声学和词汇模态之间的差距,该方法可以有效对比实例级和原型级的关系,在潜在空间中分离多模态特征。Yu等人【204】提出了一种无监督方法,通过最小化两种模态之间的Wasserstein距离,强迫两种编码器产生更合适的表示,以便最终对文本和图像进行对齐。 Lai等人【119】提出了一种基于协方差矩阵的深度模态共享信息学习模块,用于捕捉模态之间的共享信息。此外,我们使用了一个基于自监督学习策略的标签生成模块,以捕捉模态的私有信息。我们的模块在多模态任务中是即插即用的,并且通过改变参数化,它可以调整模式之间的信息交换关系,学习特定模式之间的私有或共享信息。我们还采用了多任务学习策略,帮助模型专注于模态差异的训练数据。为了增强模型的鲁棒性,Robust-MSA【118】提出了一个交互式平台,可视化模态噪声的影响,以帮助研究人员提高模型能力。

多模态情感计算中的模型

在多模态情感计算领域,相关工作在技术路线发展上表现出显著的一致性。为了更清晰地展示,我们根据多任务学习、预训练模型、增强知识、上下文信息这四个方面对这些工作进行了分类。同时,我们简要总结了在多模态情感分析(MSA)、多模态对话情感识别(MERC)、多模态基于方面的情感分析(MABSA)和多模态多标签情感识别(MMER)任务中的进展。图4总结了在这些方面的典型多模态情感计算工作,表II展示了多模态情感计算的分类。

A. 多任务学习

多任务学习是在多个相关任务上同时训练模型,通过共享信息来提升性能。损失函数结合了所有任务的损失,通过梯度下降来更新模型参数。在多模态情感计算中,多任务学习有助于区分模态不变和模态特定特征,并将与情感相关的子任务整合到统一框架中。图5展示了多模态情感学习任务中多任务学习的范式。

**1) 多模态情感分析

在多模态情感分析领域,Self-MM【134】为单一模态生成伪标签【205】–【207】,然后基于生成的和原始标签共同训练单模态和多模态表示。此外,还使用了一种模态间的翻译框架ARGF,作为辅助任务将一种模态翻译到另一种模态,从而规范多模态表示学习【135】。Akhtar等人【136】利用情感和情绪任务的相互依赖性来提高模型在这两个任务上的性能。Chen等人【137】提出了一个基于视频的跨模态辅助网络(VCAN),该网络由一个音频特征映射模块和一个跨模态选择模块组成,以利用辅助信息。Zheng等人【138】提出了带有松弛重建的解耦翻译网络(DTN),用于捕捉期望的信息属性,获取统一的特征分布,并减少冗余。Zheng等人【87】结合了模态对之间的互信息最大化(MMMIE)与输入数据和相应特征之间的互信息最小化,在单一架构中共同提取模态不变和任务相关的信息。

**2) 多模态对话情感识别

在多模态情感识别社区中,Zheng等人【24】提出了一个名为面部表情感知多模态多任务学习的两阶段框架(FacialMMT),该框架在统一架构中共同训练多模态面部识别、无监督面部聚类和面部匹配,以利用帧级别的面部情感分布来帮助改进基于多任务学习的话语级情感识别。Zhang等人【208】设计了两种多任务学习解码器,即单级解码器和多级解码器,以探索其潜力。更具体地说,单级解码器的核心是掩蔽的外模态自注意机制。Sun等人【139】设计了两个辅助任务,以缓解模态间融合不足的问题,并引导网络捕捉和对齐与情感相关的特征。Zhao等人【140】提出了基于Transformer的深度融合网络(TDFNet)用于多模态情感识别,解决了上述问题。TDFNet中的多模态嵌入(ME)模块通过使用大量无标签数据为模型提供多模态信息的先验知识,来缓解数据稀缺问题。Ren等人【141】提出了一种新颖的多模态对抗学习网络(MALN),该网络首先从上下文序列中挖掘说话者的特征,然后将其与单模态特征结合起来。Liu等人【142】提出了LGCCT,一种轻量级的门控和交叉互补Transformer,用于多模态语音情感识别。

**3) 多模态基于方面的情感分析

Yang等人【144】提出了一个名为跨模态多任务Transformer(CMMT)的多任务学习框架,该框架包含两个辅助任务,用于学习方面/情感感知的模态内表示,并引入了一个文本引导的跨模态交互模块,以动态控制视觉信息对每个词的模态间交互表示的贡献。Jain等人【145】提出了一个分层多模态生成方法(AbCoRD),用于基于方面的投诉和理由检测,将多任务问题重新表述为多模态文本生成任务。Ju等人【146】是第一个联合执行多模态ATE(MATE)和多模态ASC(MASC)的人,并提出了一个联合框架JML,用于基于多模态方面级情感分析(MALSA)的辅助跨模态关系检测,以控制视觉信息的适当利用。Zou等人【36】设计了一个多模态提示Transformer(MPT)进行跨模态信息融合。同时,该工作使用了混合对比学习(HCL)策略,以优化模型处理少量标签样本的能力。Chen等人【82】设计了音频模块应比文本模块更具表现力,并将单一模态情感表示动态融合到多模态情感表示中,提出了相应的基于规则的多模态多任务网络(MMRBN),用于限制表示学习。

**4) 多模态多标签情感识别

对于多模态多标签情感识别,Ge等人【92】设计了对抗性时间掩蔽策略和对抗性参数扰动策略,以分别增强其他模态的编码和模型的泛化能力。MER-MULTI【147】是一种标签分布自适应方法,适应了训练集和测试集之间的标签分布,以消除与测试集特征不匹配的训练样本。Akhtar等人【209】提出了一个深度多任务学习框架,该框架联合执行情感和情绪分析,利用两个相关任务(即情感和情绪)的相互依赖性来提高它们各自的性能。

B. 预训练模型

近年来,大语言模型(LLM)【56】【210】和多模态预训练模型【21】【26】【211】【212】取得了显著进展【25】【210】【213】。与非预训练模型相比,预训练模型包含大量转移知识【27】【31】,可以引入到多模态表示学习中,以探索更丰富的信息。图6展示了预训练模型在多模态情感学习任务中的使用。

**1) 多模态情感分析

在多模态情感分析领域,Rahman等人【21】提出了一种附加到预训练模型BERT和XLNet上的多模态适应门(MAG),该适应门允许BERT和XLNet通过生成一个基于视觉和声学模态的偏移来接受多模态的非语言数据。UniMSE【37】是基于T5模型【57】的统一情感共享框架,该框架将非语言信号注入预训练的Transformer模型中,以探索LLM中存储的知识。AOBERT【148】引入了一种单流Transformer结构,将所有模态整合到一个BERT模型中。Qian等人【149】在词级别嵌入情感信息到预训练的多模态表示中,以便在有限的标注数据上进行进一步学习。TEASAL【150】是一个基于Transformer的语音前缀语言模型,它利用一个传统的预训练语言模型作为跨模态Transformer编码器。Yu等人【151】研究了面向目标的多模态情感分类(TMSC),并提出了一个多模态BERT架构,用于多模态情感分析任务。Cheng等人【152】设置了分层参数共享和分解的共同注意机制,以便在跨注意力块之间共享参数,从而允许多模态信号在每一层进行交互。ALMT【153】结合了一个自适应超模态学习(AHL)模块,用于在语言特征的指导下从视觉和音频特征中学习无关性/冲突抑制的表示。

**2) 多模态对话情感识别

在多模态对话情感识别领域,FacialMMT【24】是一个两阶段框架,使用RoBERTa【214】和Swin Transformer作为表示学习的主干。Qiu等人【215】采用VATT【30】分别编码视觉、文本和音频,并使学到的模态表示进行对齐。QAP【19】是一个量子启发的自适应优先学习模型,采用ALBERT作为文本编码器,并引入了量子理论(QT)以自适应地学习模态优先级。UniMSE【37】提出了一种基于预训练模型T5的多模态融合方法,旨在通过预训练的知识融合模态信息。GraphSmile【154】采用RoBERTa【214】逐层跟踪多模态对话中的复杂情感线索,逐层吸收模态内和模态间的情感依赖关系,充分捕捉跨模态线索,同时有效避免融合冲突。

**3) 多模态基于方面的情感分析

在多模态基于方面的情感分析研究中,Xu等人【47】首次提出了多模态基于方面的情感分析任务,并提出了一种新颖的多交互记忆网络(MIMN),该网络包含两个交互记忆网络,分别用于监督文本和视觉信息与给定方面的关联,并学习跨模态数据之间的交互影响以及单模态数据中的自我影响。Yang等人【17】提出了一种新颖的生成多模态提示(GMP)模型,用于MABSA,该模型包含多模态编码器模块和N流解码器模块,并通过少量标注的多模态样本执行三项MABSA相关任务。Liu等人【155】提出了一种基于视觉提示的实体相关无监督预训练,用于MABSA。Ling等人【156】提出了一个任务特定的视觉-语言预训练框架(VLPMABSA),这是一个统一的多模态编码器-解码器架构,适用于所有的预训练和下游任务。Zhang等人【157】构建了一个动态重加权的BERT(DR-BERT),设计用于学习基于BERT的动态方面导向语义。

**4) 多模态多标签情感识别

一些关于多模态多标签情感识别的工作利用了预训练模型来提高模型性能。据我们所知,TAILOR【91】是一个新颖的多模态学习框架,用于多标签情感识别,它对多个模态之间的共性和差异进行了对抗性描绘。TAILOR通过对抗性地提取私有和共性模态表示来执行这些任务。

C. 增强知识

在机器学习和人工智能中,外部知识是指来自训练数据集之外的信息,包括知识库、文本语料库、知识图谱、预训练模型和专家见解。整合这些知识可以提高模型的性能、泛化能力、可解释性以及对噪声或有限数据的鲁棒性。图7展示了在多模态情感学习任务中整合外部知识的常见方法。

**1) 多模态情感分析

在多模态情感分析研究领域,Rahmani等人【18】通过层次划分用户构建了自适应树,并利用基于注意力的融合来在树内转移认知导向的知识。TETFN【163】是一种新颖的方法,名为文本增强Transformer融合网络,它学习面向文本的成对跨模态映射,以获得有效的统一多模态表示。Zhu等人【164】提出了情感知识增强的注意力融合网络(SKEAFN),这是一个新颖的端到端融合网络,通过整合来自外部知识库的附加情感知识表示来增强多模态融合。

**2) 多模态对话情感识别

在多模态对话情感识别领域的研究中,Fu等人【166】将上下文建模、知识丰富和多模态(文本和音频)学习集成到基于GCN的架构中。Li等人【167】提出了一种解耦的多模态蒸馏(DMD)方法,旨在通过灵活和自适应的跨模态知识蒸馏来增强每种模态的判别特征。Sun等人【168】研究了一种基于粗集理论的多模态融合Transformer网络,通过粗集跨注意力促进了多模态信息的交互和特征引导。

**3) 多模态基于方面的情感分析

在多模态基于方面的情感分析研究中,Xu等人【172】引入了外部知识,包括文本语法和跨模态关联知识,通过知识诱导矩阵切断文本或跨模态模态之间的无关连接。Yang等人【173】提炼了视觉情感线索,并将其与文本内容对齐,以选择性地与文本模态中的目标方面匹配和融合。CoolNet【174】是一个跨模态的细粒度对齐和融合网络,旨在提高视觉-语言模型在无缝整合视觉和语言信息方面的表现。

**4) 多模态多标签情感识别

在多模态多标签情感识别研究领域,Zheng等人【176】提出通过使用效价-唤醒(VA)空间来表示每个情感类别,以捕捉情感类别之间的相关性,并设计了一种基于VA的对比学习算法。CARAT【177】提出了基于对比的特征重建和聚合机制,用于MMER任务。具体而言,CARAT设计了一种基于重建的融合机制,通过对比学习模态分离和标签特定特征,来更好地建模细粒度的模态与标签之间的依赖关系。

D. 上下文信息

上下文是指围绕某个词或短语的单词、句子或段落,这些信息为该词或短语赋予了特定的含义。理解上下文对于对话系统或情感分析等任务至关重要。在对话中,上下文包括之前话语的历史,而对于新闻来说,它指的是整篇文章提供的总体描述。总的来说,上下文信息帮助机器做出更准确的预测。图8展示了上下文信息在多模态情感学习任务中的重要性。

**1) 多模态情感分析

在多模态情感分析领域,Chauhan等人【180】采用了一个上下文感知的注意力模块,通过编码器-解码器结构学习参与模态之间的模态内交互。Poria等人【181】提出了一个带有多级多重注意的递归模型,以捕捉话语之间的上下文信息,并设计了一个递归模型来捕捉话语之间的上下文信息,引入了基于注意力的网络,以提高上下文学习和动态特征融合的效果。

**2) 多模态对话情感识别

在多模态对话情感识别研究领域,Hu等人【185】有效利用了多模态依赖关系,并利用说话者信息来建模说话者之间和说话者内部的依赖关系。Zhang等人【80】提出了一个跨模态上下文融合和语义精炼网络(CMCF-SRNet),解决了话语之间语义关系信息不足的局限性。Zhang等人【187】构建了多个特定模态的图,以建模多模态上下文的异质性。Chen等人【188】提出了一个基于GNN的模型,该模型探索了多变量关系,并通过评估多频信号的情感差异和共性的不同重要性来捕捉这些关系。

**3) 多模态基于方面的情感分析

在多模态基于方面的情感分析研究中,Yu等人【158】提出了一种无监督的方法,该方法最小化了两个模态之间的Wasserstein距离,强制两个编码器生成更适合最终提取的表示。Xu等人【192】设计并构建了一个多模态中文产品评论数据集(MCPR),以支持MABSA的研究。

**4) 多模态多标签情感识别

MMS2S【197】是一种多模态序列到集合的模型,用于有效建模标签依赖和模态依赖。MESGN【198】首次提出了这一任务,该模型同时建模模态到标签和标签到标签的依赖关系。Zhao等人【199】提出了一个通用的多模态对话感知交互框架(MDI),用于建模对话上下文对情感识别的影响。 结论

多模态情感计算(MAC)已成为人工智能领域中的一个重要研究方向,并在理解和解释情感方面取得了显著进展。本文综述了与多模态情感计算相关的多种任务,涵盖了其研究背景、定义、相关工作、技术方法、基准数据集和评估指标。我们将多模态情感计算中的任务划分为四类:多任务学习、预训练模型、增强知识和上下文信息,涉及多模态情感分析(MSA)、多模态对话情感识别(MERC)、多模态基于方面的情感分析(MABSA)和多模态多标签情感识别(MMER)。此外,我们总结了不同情感计算任务之间的一致性和差异性,并报告了多模态情感分析中固有的挑战,探索了未来研究和发展的潜在方向。

成为VIP会员查看完整内容
16

相关内容

基于预训练语言模型的可控文本生成的研究与应用
专知会员服务
22+阅读 · 2022年12月13日
基于深度学习的计算机视觉研究新进展
专知会员服务
150+阅读 · 2022年4月21日
专知会员服务
54+阅读 · 2021年10月4日
专知会员服务
50+阅读 · 2021年9月25日
专知会员服务
61+阅读 · 2021年3月6日
专知会员服务
57+阅读 · 2020年12月6日
深度学习可解释性研究进展
专知会员服务
97+阅读 · 2020年6月26日
基于深度学习的手语识别综述
专知会员服务
46+阅读 · 2020年5月18日
基于深度学习的数据融合方法研究综述
专知
31+阅读 · 2020年12月10日
深度学习可解释性研究进展
专知
18+阅读 · 2020年6月26日
当深度强化学习遇见图神经网络
专知
224+阅读 · 2019年10月21日
深入卷积神经网络背后的数学原理
人工智能学家
10+阅读 · 2019年4月26日
机器学习中的最优化算法总结
人工智能前沿讲习班
22+阅读 · 2019年3月22日
贝叶斯机器学习前沿进展
机器学习研究会
21+阅读 · 2018年1月21日
深度学习中的注意力机制
CSDN大数据
24+阅读 · 2017年11月2日
国家自然科学基金
22+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2008年12月31日
Arxiv
148+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
377+阅读 · 2023年3月31日
Arxiv
64+阅读 · 2023年3月26日
Arxiv
133+阅读 · 2023年3月24日
Arxiv
19+阅读 · 2023年3月17日
VIP会员
相关VIP内容
基于预训练语言模型的可控文本生成的研究与应用
专知会员服务
22+阅读 · 2022年12月13日
基于深度学习的计算机视觉研究新进展
专知会员服务
150+阅读 · 2022年4月21日
专知会员服务
54+阅读 · 2021年10月4日
专知会员服务
50+阅读 · 2021年9月25日
专知会员服务
61+阅读 · 2021年3月6日
专知会员服务
57+阅读 · 2020年12月6日
深度学习可解释性研究进展
专知会员服务
97+阅读 · 2020年6月26日
基于深度学习的手语识别综述
专知会员服务
46+阅读 · 2020年5月18日
相关资讯
基于深度学习的数据融合方法研究综述
专知
31+阅读 · 2020年12月10日
深度学习可解释性研究进展
专知
18+阅读 · 2020年6月26日
当深度强化学习遇见图神经网络
专知
224+阅读 · 2019年10月21日
深入卷积神经网络背后的数学原理
人工智能学家
10+阅读 · 2019年4月26日
机器学习中的最优化算法总结
人工智能前沿讲习班
22+阅读 · 2019年3月22日
贝叶斯机器学习前沿进展
机器学习研究会
21+阅读 · 2018年1月21日
深度学习中的注意力机制
CSDN大数据
24+阅读 · 2017年11月2日
相关基金
国家自然科学基金
22+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2008年12月31日
微信扫码咨询专知VIP会员