多模态情感计算的最新趋势：来自自然语言处理视角的综述

摘要—多模态情感计算（MAC）由于其在人类行为和意图分析中的广泛应用，尤其是在以文本为主导的多模态情感计算领域中，受到了越来越多的关注。本综述从自然语言处理（NLP）视角出发，介绍了多模态情感计算的最新趋势，涵盖四个热门任务：多模态情感分析、多模态对话情感识别、多模态基于方面的情感分析以及多模态多标签情感识别。本综述的目标是探索当前多模态情感研究的现状，识别发展趋势，突出不同任务之间的相似性和差异性，并为多模态情感计算在NLP视角下的最新进展提供全面报告。本综述涵盖了任务的形式化，概述了相关研究工作，描述了基准数据集，并详细介绍了每个任务的评估指标。此外，本文简要讨论了涉及面部表情、声学信号、生理信号和情感原因的多模态情感计算研究。我们还讨论了多模态情感计算中的技术方法、挑战及未来发展方向。为了支持进一步的研究，我们发布了一个汇集了多模态情感计算相关工作的资源库，提供了详细的资源和参考文献，供研究社区使用。

情感计算结合了计算机科学、心理学和认知科学的专业知识，其目标是赋予机器识别、解释和模拟人类情感的能力【1】–【6】。当今世界充满了各种模态——我们通过视觉感知物体，通过听觉感受声音，通过触觉感受物体的质地，通过嗅觉闻到气味，等等。模态是指体验的感知或发生方式，通常与视觉或触觉等感官模态相关，这些模态对交流和感知至关重要。在多个领域的多模态学习取得重大进展【7】【8】后，多模态情感计算的进展加速并受到越来越多的关注。

多模态情感计算旨在开发能够在多种模态下解释和推理情感或情绪状态的模型。在其早期阶段，情感计算的研究主要集中在单一模态任务上，分别研究基于文本、音频和视觉的情感计算。例如，D-MILN【9】是一个文本情感分类模型，而工作【10】利用训练在原始音频上的双向长短期记忆（BiLSTM）模型预测群体反应的平均情感。如今，情感分析已广泛应用于各种模态中，用于市场研究、品牌监测、客户服务分析和社交媒体监控等应用。多媒体技术的最新进展【11】–【14】拓宽了信息传播的渠道，新闻、微博等社交媒体平台以及视频内容的涌现将文本（口语特征）、声学（节奏、音高）和视觉（面部属性）信息整合起来，用于全面分析人类情感。例如，Xu等人【15】将图像模态数据引入传统的基于文本的方面级情感分析，创建了多模态基于方面的情感分析新任务。同样，Wang等人【16】将文本情感原因对提取扩展到多模态对话环境中，利用多模态信号（文本、音频和视频）增强模型理解情感及其原因的能力。

多模态情感计算任务与机器学习中的多个学习范式密切相关，包括迁移学习【17】–【19】、多模态学习【20】【21】、多任务学习【22】–【24】和语义理解【25】【26】。在迁移学习方面，它使得在一个领域训练的情感分析模型能够适应其他领域的有效表现。通过在目标领域有限的数据上微调预训练模型，这些模型可以迁移到新领域，从而提升其在多模态情感计算任务中的表现。在多模态学习中，跨模态注意力动态对齐并聚焦于来自不同模态的相关信息，通过突出关键特征及其交互来增强模型捕捉情感的能力。在多任务学习中，跨情感计算任务和模态的共享表示通过从文本、音频和视频中捕捉共同的情感相关特征来提升表现。最近，多模态学习的研究通过在大规模多模态数据集上预训练多模态模型，进一步提升了下游任务的性能，如多模态情感分析【27】–【30】。随着预训练模型规模的扩大，参数高效的迁移学习方法如适配器【31】、提示【32】、指令微调【33】和上下文学习【34】【35】等不断涌现。越来越多的多模态情感计算研究利用这些参数高效的迁移学习方法，将预训练模型（如单模态预训练模型或多模态预训练模型）的知识迁移到下游情感任务中，通过进一步微调预训练模型来提升模型性能。例如，Zou等人【36】设计了一个多模态提示Transformer（MPT）用于跨模态信息融合。UniMSE【37】提出了一种基于适配器的模态融合方法，它将声学和视觉信号注入T5模型中，与多层次的文本信息进行融合。

多模态情感计算涵盖了情感分析、观点挖掘和情感识别等任务，使用的模态包括文本、音频、图像、视频、生理信号和触觉反馈。本综述主要关注三种关键模态：自然语言、视觉信号和声音信号。我们在本综述中突出了四个主要任务：多模态情感分析（MSA）、多模态对话中的情感识别（MERC）、多模态基于方面的情感分析（MABSA）和多模态多标签情感识别（MMER）。多模态情感计算领域已有大量研究，且已有多篇综述【14】【38】–【40】发表。然而，这些综述主要集中于特定的情感计算任务或单一模态，忽略了跨多任务的多模态情感计算的总体概况，以及这些任务之间的一致性和差异性。

本综述的目标有两点。首先，旨在为初学者提供多模态情感计算的全面概述，探索情感分析中的深度学习，详细介绍任务、输入、输出及相关数据集。其次，为研究人员提供反思过去发展、探索未来趋势的视角，并研究多模态情感分析和情感识别领域的技术方法、挑战及研究方向。

综述的结构

第III节概述了多模态情感任务的任务形式化及应用场景。第IV节介绍了特征提取方法和最近的多模态预训练模型（如CLIP、BLIP、BLIP2）。第V节从多模态融合和多模态对齐两个角度分析了多模态情感研究，并简要总结了用于进一步微调预训练模型的参数高效迁移方法。第VI节回顾了关于MSA、MERC、MABSA和MMER的文献，重点讨论了多任务学习、预训练模型、增强知识和上下文信息。此外，第VII节总结了多模态数据集，第VIII节涵盖了每个多模态情感计算任务的评估指标。在回顾多模态情感计算工作后，第IX节简要回顾了基于面部表情、声学信号、生理信号和情感原因的多模态情感计算工作，突出其一致性、差异性及其最新趋势。第X节从三个方面展望了未来工作：多模态情感计算任务的统一、外部知识的引入以及较少研究的模态情感计算。最后，第XI节总结了本综述及其对多模态情感计算社区的贡献。

多模态情感计算中的多模态学习

多模态学习涉及从不同模态中学习表示。通常，多模态模型应首先基于语义对模态进行对齐，然后再融合多模态信号。在对齐后，模型将多个模态组合成一个表示向量。

A. 初步概述

随着预训练模型规模的扩大，出现了诸如适配器【31】、提示【32】、指令微调【33】和上下文学习【34】【35】等参数高效的迁移学习方法。在这种范式下，预训练的语言模型（LMs）不再通过目标工程适应下游任务，而是通过提示、指令微调和上下文学习，将下游任务重新格式化，使其更像原始LM训练期间解决的任务。例如，在视觉语言模型（VLMs）中，像GPT-4V【65】和Flamingo【67】的提示使用，使模型能够基于视觉和文本输入的结合来解释和生成输出。与提示不同，指令微调属于提示学习范式。此外，像InstructBLIP【70】和FLAN【72】这样的模型表明，指令微调不仅提高了模型对指令的遵循性，还增强了其跨任务的泛化能力。在多模态情感计算领域，研究人员可以利用这些参数高效的迁移学习方法（例如适配器、提示和指令微调），将预训练模型（例如单模态预训练模型或多模态预训练模型）的知识迁移到下游情感任务中，并通过情感数据集进一步微调预训练模型。鉴于多模态情感计算涉及多模态学习，因此我们从多模态融合和多模态对齐的角度分析多模态情感计算的相关工作，如图1所示。

B. 多模态融合

多模态信号是异质的，来源于各种信息源，因此将多模态信号整合为一个表示至关重要。Tasi等人【74】根据融合阶段将多模态融合总结为早期融合、晚期融合和中间融合。早期融合在模型处理之前，将来自不同模态的特征在输入级别进行组合。晚期融合则通过单独的子网络分别处理来自不同模态的特征，并在做出最终决策之前的晚期阶段将这些子网络的输出进行组合。晚期融合使用单模态的决策值，并通过如平均【121】、投票方案【122】、基于通道噪声的加权【123】和信号方差【124】等机制将它们结合起来，或者通过学习模型【6】【125】进行融合。这两种融合策略面临一些问题。例如，特征级别的早期融合在融合操作后可能低估模态内的动态，而决策级别的晚期融合在融合操作之前可能难以捕捉模态间的动态。不同于前两种方法的地方在于，中间融合是在模型学习器的中间层结合来自不同模态的特征，允许模态在不同的处理阶段进行更多的交互，从而可能产生更丰富的表示【37】【126】【127】。基于这些融合策略，我们从三个方面回顾了多模态融合：跨模态学习、模态一致性与差异性、多阶段模态融合。图2展示了模态融合的三个方面。

**1) 跨模态学习

跨模态学习关注的是通过引入模态间的依赖关系和交互来实现更好的模态融合。早期的多模态融合工作【73】主要在特征空间中进行几何操作，以融合多种模态。最近，跨模态学习的常见方式是引入基于注意力的学习方法来建模模态间和模态内的交互。例如，MuLT【74】提出了多模态Transformer，用于学习模态间的交互。Chen等人【75】通过三模态协同交互增强了模态内和模态间的特征，并统一了三种模态的特性（跨模态）。杨等人【76】提出了跨模态BERT（CM-BERT），旨在基于预训练的BERT模型对文本和音频模态的交互进行建模。Lin等人【77】探讨了模态内和模态间表示的复杂关系，用于情感提取。最近，Tang等人【78】提出了多模态动态增强模块，用于捕捉模态内的情感上下文，减少辅助模态的模态内冗余。Huang等人【79】提出了一个基于跨模态注意力的文本中心融合网络（TeFNA），这个多模态融合网络利用跨模态注意力建模未对齐的多模态时间信息。

在情感识别领域，CMCF-SRNet【80】是一个跨模态上下文融合和语义精炼网络，包含一个跨模态局部约束Transformer和基于图的语义精炼Transformer，旨在探索话语间的多模态交互和依赖关系。Shi等人【81】提出了一个基于注意力的相关性感知多模态融合框架MultiEMO，该框架基于双向多头跨注意力层捕捉文本、音频和视觉模态间的映射关系。总之，跨模态学习主要关注模态间关系的建模。

**2) 模态一致性与差异性

模态一致性是指对于同一样本，不同模态之间共享的特征空间，而模态差异性则突出每种模态提供的独特信息。大多数多模态融合方法将表示分为模态不变（一致性）和模态特定（差异性）两个组成部分。模态一致性有助于处理缺失模态，而模态差异性则利用每个模态的互补信息来改进整体数据理解。例如，几项研究【86】【87】通过对比学习探索了模态一致性与差异性的学习。Han等人【85】通过最大化模态间及模态内的互信息来探索模态一致性。另一项研究【86】提出了一个混合对比学习框架，该框架同时进行模态内/模态间对比学习和半对比学习，建模跨模态交互，保持类间关系，并减少模态差距。此外，Zheng等人【87】将模态对之间的互信息最大化与输入数据和相应特征之间的互信息最小化相结合。该方法旨在提取模态不变且任务相关的信息。模态一致性也可以被视为将多种模态投射到共同潜在空间（模态不变表示）的过程，而模态差异性则指将模态投射到模态特定的表示空间。例如，Hazarika等人【88】提出了一种方法，将每种模态投射到模态不变和模态特定的空间中。他们实现了一个解码器，通过模态不变和模态特定特征来重建原始模态表示。AMuSE【84】提出了一个多模态注意力网络，通过联合学习模式特定的外周和中央网络，捕捉不同层次空间抽象下的跨模态交互。对于细粒度的情感分析，Xiao等人【89】提出了CoolNet，以提高视觉语言模型在无缝整合视觉和语言信息方面的性能。Zhang等人【90】通过探索模态一致性，提出了一个基于融合判别注意力网络的方面级情感分类模型。

**3) 多阶段模态融合

多阶段多模态融合【128】【129】指的是将从多个阶段或多个尺度提取的模态信息结合起来，以融合模态表示。Li等人【94】设计了一个两阶段对比学习任务，学习相同情感类别数据的相似特征，并为不同情感类别的数据学习可区分的特征。HFFN【95】将多模态融合过程分为分解、征服和组合三个部分，在每个局部块学习局部交互，并通过跨局部交互传递信息来探索全局交互。与HFFN的工作不同，Li等人【96】对齐并融合了文本和图像的token级特征，设计了基于标签的对比学习和基于数据的对比学习，以捕捉多模态数据中与情感相关的共同特征。一些工作【97】将融合过程分解为多个阶段，每个阶段专注于部分多模态信号，以实现更专门和有效的融合。此外，CTFN【130】提出了一种新的特征融合策略，按照层次化的方式进行，首先两两融合模态，然后再融合三种模态。此外，在多个层次的模态融合方面也取得了进展，例如，Li等人【99】提出了一种基于多层次相关性挖掘和自监督多任务学习的多模态情感分析方法，Peng等人【100】提出了一种细粒度模态标签的多阶段网络（FmlMSN），利用来自文本、音频、图像及其组合的七种情感标签，在不同粒度上进行信息整合。研究人员通常专注于模型决策前的尺度级模态对齐和模态融合。Sharafi等人【93】提出了一种新的融合方法，利用不同的尺度进行多模态情感识别。

C. 多模态对齐

多模态对齐涉及在融合多模态数据之前对模态语义进行同步。一个关键挑战是处理缺失模态的情况，例如由于摄像头关闭、用户沉默或设备故障导致语音和文本同时缺失。由于始终拥有所有模态的假设在现实中通常不切实际，因此多模态对齐必须解决这些缺失。此外，它还涉及通过语义对齐来对齐图像、文本和音频中的对象。因此，我们从处理缺失模态和实现语义对齐的角度讨论多模态对齐。图3展示了多模态对齐的示意图。

**1) 缺失模态的对齐

在实际场景中，数据收集有时会由于不可预见的事件同时丢失某些模态。虽然多模态情感计算通常假设所有模态都可用，但这一假设在实践中经常失败，这可能会导致在缺少某些模态时，模态融合和对齐模型出现问题。我们将现有的处理缺失模态的方法分为四类。第一类是数据增强方法，通过随机删除输入来模拟缺失模态的情况。Parthasarathy等人【107】提出了一种策略，在训练过程中随机删除视频输入的剪辑或帧，模拟现实世界场景。Wang等人【108】通过训练情感识别模型，迭代性地进行数据增强，处理话语级模态缺失问题。第二类基于生成方法，直接预测给定可用模态的缺失模态【131】。例如，Zhao等人【106】提出了缺失模态想象网络（MMIN），在不同缺失模态条件下，根据可用模态预测任何缺失模态的表示，以应对不确定的缺失模态问题。Zeng等人【109】提出了基于集成的缺失模态重建（EMMR）网络，以检测并恢复关键缺失模态的语义特征。Yuan等人【110】提出了一种基于Transformer的特征重建网络（TFR-Net），该网络通过增强模型在非对齐模态序列中随机缺失的鲁棒性。Luo等人【111】提出了多模态重建与对齐网络（MRAN），专门处理缺失模态问题，尤其是缓解文本模态缺失带来的性能下降。

第三类旨在学习联合多模态表示，这些表示能够包含基于组合的视觉和文本输入的相关信息。例如，Ma等人【133】提出了一个统一的深度学习框架，通过相关分析有效处理音视频情感识别中的缺失标签和缺失模态问题。Zeng等人【113】提出了一个标签辅助Transformer编码器网络（TATE），用于处理不确定的缺失模态问题，该网络设计了一个标签编码模块，以覆盖单模态和多模态缺失的情况，从而引导网络对缺失模态的关注。Zuo等人【114】提出使用不变特征的缺失模态想象网络（IF-MMIN），该网络包含不变特征学习策略和基于不变特征的想象模块（IF-IM）。通过这两种策略，IF-MMIN能够在预测缺失模态时缓解模态差距，从而提高多模态联合表示的鲁棒性。Zhou等人【116】在缺失一种或多种模态的情况下，提出了一种新颖的脑肿瘤分割网络。该网络由三个子网络组成：一个特征增强生成器、一个相关性约束模块和一个分割网络。最后一类是基于翻译的方法。Tang等人【98】提出了耦合翻译融合网络（CTFN），通过耦合学习建模双向交互，确保在缺失模态情况下的鲁棒性。Liu等人【115】提出了一种基于模态翻译的多模态情感分析模型（MTMSA），该模型对不确定的缺失模态具有鲁棒性。总而言之，关于缺失模态对齐的研究集中在基于现有模态信息的缺失模态重建和学习。

**2) 跨模态语义对齐

语义对齐旨在找到同一样本中多种模态之间的连接，指的是通过一种模态信息搜索另一种模态信息，反之亦然。在多模态情感分析领域，Tsai等人【74】利用跨模态和多尺度模态对齐，分别在语义层面实现模态一致性。ScaleVLAD【200】提出了一种融合模型，通过共享的局部聚合描述符向量，从文本、视频和音频中聚集多尺度表示，以改进未对齐的多模态情感分析。Yang等人【104】将未对齐的多模态序列数据转换为一个具有异质节点和边的图，捕捉模态间和时间上的丰富交互。Lee等人【201】将音频和基础文本信号按相同步长分段，使得顺序信号的相同时间步覆盖信号的相同时间跨度。Zong等人【202】利用多次双向翻译，与传统的翻译方法相比，产生了双倍的多模态融合嵌入。Wang等人【203】提出了一种基于Transformer的多模态编码–解码翻译网络，并采用了以文本为主要信息、声音和图像为次要信息的联合编码–解码方法。Zhang等人【120】提出了一种新颖的多级对齐方法，用于弥合声学和词汇模态之间的差距，该方法可以有效对比实例级和原型级的关系，在潜在空间中分离多模态特征。Yu等人【204】提出了一种无监督方法，通过最小化两种模态之间的Wasserstein距离，强迫两种编码器产生更合适的表示，以便最终对文本和图像进行对齐。 Lai等人【119】提出了一种基于协方差矩阵的深度模态共享信息学习模块，用于捕捉模态之间的共享信息。此外，我们使用了一个基于自监督学习策略的标签生成模块，以捕捉模态的私有信息。我们的模块在多模态任务中是即插即用的，并且通过改变参数化，它可以调整模式之间的信息交换关系，学习特定模式之间的私有或共享信息。我们还采用了多任务学习策略，帮助模型专注于模态差异的训练数据。为了增强模型的鲁棒性，Robust-MSA【118】提出了一个交互式平台，可视化模态噪声的影响，以帮助研究人员提高模型能力。

**4) 多模态多标签情感识别

MMS2S【197】是一种多模态序列到集合的模型，用于有效建模标签依赖和模态依赖。MESGN【198】首次提出了这一任务，该模型同时建模模态到标签和标签到标签的依赖关系。Zhao等人【199】提出了一个通用的多模态对话感知交互框架（MDI），用于建模对话上下文对情感识别的影响。结论

多模态情感计算（MAC）已成为人工智能领域中的一个重要研究方向，并在理解和解释情感方面取得了显著进展。本文综述了与多模态情感计算相关的多种任务，涵盖了其研究背景、定义、相关工作、技术方法、基准数据集和评估指标。我们将多模态情感计算中的任务划分为四类：多任务学习、预训练模型、增强知识和上下文信息，涉及多模态情感分析（MSA）、多模态对话情感识别（MERC）、多模态基于方面的情感分析（MABSA）和多模态多标签情感识别（MMER）。此外，我们总结了不同情感计算任务之间的一致性和差异性，并报告了多模态情感分析中固有的挑战，探索了未来研究和发展的潜在方向。

成为VIP会员查看完整内容