近年来,大语言模型(LLMs)在语言理解方面取得了重大进展,标志着向通用人工智能(AGI)迈出了重要一步。随着对高层语义建模和跨模态融合的需求不断增加,多模态大语言模型(MLLMs)应运而生,它们融合了多种信息源(如文本、视觉和音频),以增强在复杂场景中的建模与推理能力。在科学智能(AI for Science)领域,多模态情绪识别与推理已成为一个快速发展的前沿方向。尽管 LLMs 和 MLLMs 在该领域已经取得了显著进展,但目前仍缺乏一个系统性的综述来整合最新研究成果。为弥补这一空白,本文对用于情绪识别与推理的 LLMs 和 MLLMs 进行全面综述,涵盖模型架构、数据集和性能基准。我们进一步指出该领域的关键挑战,并勾勒未来的研究方向,旨在为研究人员提供权威参考与实用见解,以推动该领域的发展。据我们所知,本文是首次在综述层面系统性地探讨 MLLMs 与多模态情绪识别和推理的交叉领域。本文提及的方法总结已整理于我们的 Github 仓库:https://github.com/yuntaoshou/Awesome-Emotion-Reasoning。

1 引言

近年来,大语言模型(LLMs)[15, 142] 在自然语言处理(NLP)方面取得了显著进展。通过扩大训练数据规模和模型参数数量,LLMs 展现出前所未有的涌现能力,使其能够在许多任务中表现优异,尤其是在指令跟随(Instruction Following, IF)[136]、上下文学习(In-Context Learning, ICL)[130] 和思维链推理(Chain-of-Thought, CoT)[138] 等方面。指令跟随使模型能够理解并执行复杂任务;ICL 使模型能够在无需显式训练的情况下,基于上下文灵活地处理不同问题;而思维链推理则通过逐步推理提升了模型的决策过程。 虽然 LLMs 在众多 NLP 任务中取得了良好表现 [60],并在一些复杂的现实应用中展现出惊人的零样本(zero-shot)和小样本(few-shot)推理能力 [38, 140, 166],但其本质上仍然对视觉信息“盲目”。LLMs 的工作机制主要依赖文本数据,无法直接处理多模态数据(如图像或视频)。相比之下,大型视觉模型(LVMs)能够高效处理和理解图像内容 [54, 105]。通过卷积神经网络(CNNs)[53, 107, 113] 和 Transformer [91, 95] 架构,LVMs 在视觉识别与图像生成方面取得了卓越成果 [86, 172]。然而,尽管 LVMs 在视觉推理方面表现强大,但其在自然语言理解与生成上的能力有限,导致其在推理任务中缺乏灵活性。鉴于 LLMs 与 LVMs 在各自领域的优异表现和互补性,将两者优势相结合成为研究热点,从而催生了新兴的多模态大语言模型(MLLMs)[63, 150]。 具体而言,MLLMs 被设计用于接收、推理和输出来自多种模态(如文本、图像、音频等)的信息。通过跨模态融合,MLLMs 能够处理和理解更复杂、多样化的数据,在多模态输入下进行推理,并生成更为准确与丰富的输出 [82]。MLLMs 的发展为实现真正的人工智能提供了新的视角与方法,尤其是在需要同时理解语言与视觉信息的任务中(如视觉问答、图像描述生成等),展现出巨大的潜力与应用价值 [37, 99]。 作为一项具有挑战性的任务,多模态情绪识别与推理不仅要求模型能够从单一模态中提取情绪信息,还需在多模态交互中进行深层次推理,以理解和捕捉复杂的情绪表达与上下文 [68, 81, 147, 164]。随着 MLLMs 的快速发展,多模态情绪识别与推理的解决方案也发生了重大变化 [21, 23, 149]。借助统一生成范式,MLLMs 不仅能够处理多模态数据,还能在模态间进行信息融合,显著提升情绪识别与推理效果。值得注意的是,一些 MLLMs 已经能够在无需额外训练数据的情况下执行多模态情绪识别与推理,这意味着其具备强大的零样本与小样本推理能力 [10, 145]。相比之下,传统的多模态情绪识别模型通常依赖监督学习,需要大量标注数据对模型进行微调,以适配不同的情绪识别任务 [2, 96, 106, 108, 110, 114]。MLLMs 无需大规模标注数据即可超越传统模型,这为其在多模态情绪识别与推理任务中提供了显著优势。更重要的是,MLLMs 能够通过联合训练与推理在多模态间共享知识,处理多源数据,从而展现出更强的推理能力和更高的准确性。 随着 LLMs 和 MLLMs 在情绪识别与推理方面取得的显著进展,学术界与产业界对此的兴趣与投入也呈现出快速增长的趋势。因此,本文旨在探讨以下关键问题: 1. 当前 LLMs 和 MLLMs 在情绪识别与推理任务中的应用现状如何?本文将回顾相关文献,并分析 LLMs 与 MLLMs 在该领域的具体使用方式与优势。 1. 传统的多模态情绪识别方法是否已被 MLLMs 取代,抑或它们仍能有效弥补传统方法的不足? 1. 面向未来,多模态情绪识别与推理中的 MLLMs 将如何发展?

为回答上述问题,本文首次尝试对用于情绪识别与推理的 LLMs 和 MLLMs 进行全面、细致的综述(如图 1 所示)。本研究的目标是探索并总结 LLMs 和 MLLMs 在情绪识别与推理任务中的最新进展与应用。鉴于该领域的快速发展,本文不仅旨在阐明这些模型在情绪识别与推理中的具体应用,还希望通过系统性分析揭示其潜力、局限性以及未来研究方向。为此,本文首先介绍多模态情绪识别与推理的基本概念与背景,并回顾相关早期研究成果;随后,重点介绍 LLMs 和 MLLMs 在情绪识别与推理中的应用范式,并提出统一框架,以帮助理解 MLLMs 如何处理和推理跨模态数据。具体而言,我们将现有应用范式分为两类: * 参数冻结应用:依赖 LLMs 与 MLLMs 的预训练能力,在无需大量额外数据的情况下即可进行零样本学习(ZSL)[8, 50, 131] 和小样本学习(FSL)[13, 41, 70]。通过冻结大部分模型参数,仅调整少量关键参数,这一方法显著提升了效率并减少了对标注数据的需求 [16, 123, 135]。 * 参数调优应用:通过在特定任务上进行参数调优,进一步提升模型的准确性与适应性 [133, 171]。其中,全参数调优通过微调整个模型参数,使其更好地处理情绪识别任务中的多模态数据 [87, 161];高效参数调优则利用优化算法(如学习率调整、渐进训练等),在有限训练数据与计算资源下有效调整少量参数,从而提升模型性能 [67]。

最后,本文将探讨当前的研究瓶颈与挑战,并总结潜在的未来研究前沿,以启发后续探索。 本文的主要贡献如下:

新的分类体系:提出了基于(1)参数冻结与(2)参数调优的分类方法,为理解 LLMs 与 MLLMs 在情绪识别与推理中的应用提供了统一视角。据我们所知,这是首次在该领域进行全面综述。 * 全面综述:对多模态情绪识别中的 MLLMs 进行了全面回顾。针对每种建模方法,深入分析其在多模态情绪推理中的应用,并通过模型比较评估不同方法在跨模态数据处理中的优势。 * 丰富的资源:系统收集了最新的情绪识别相关资源,涵盖最前沿的 LLMs 与 MLLMs。通过回顾现有模型架构、数据集和性能评估,本文为研究人员开发情绪推理算法提供了系统性指南。 * 未来方向:深入探讨 LLMs 和 MLLMs 的最新进展及其相关挑战,旨在揭示问题的复杂性并激发未来的突破,为情绪理解与推理的进一步发展提供启发与方向。

成为VIP会员查看完整内容
0

相关内容

专门化大型语言模型综述
专知会员服务
31+阅读 · 8月28日
多模态大型语言模型:综述
专知会员服务
41+阅读 · 6月14日
多智能体协作机制:大语言模型综述
专知会员服务
67+阅读 · 1月14日
大语言模型训练数据
专知会员服务
68+阅读 · 2024年11月22日
表格数据的语言建模:基础、技术与演变综述
专知会员服务
38+阅读 · 2024年8月23日
数据与多模态大型语言模型的协同作用综述
专知会员服务
56+阅读 · 2024年7月13日
大型语言模型的模型压缩与高效推理:综述
专知会员服务
92+阅读 · 2024年2月17日
数据受限条件下的多模态处理技术综述
专知
20+阅读 · 2022年7月16日
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
综述| 当图神经网络遇上强化学习
图与推荐
34+阅读 · 2022年7月1日
清华大学《高级机器学习》课程
专知
40+阅读 · 2020年7月21日
多模态多任务学习新论文
专知
46+阅读 · 2019年2月9日
见微知著:语义分割中的弱监督学习
深度学习大讲堂
11+阅读 · 2017年12月6日
语义分割中的深度学习方法全解:从FCN、SegNet到DeepLab
炼数成金订阅号
26+阅读 · 2017年7月10日
国家自然科学基金
9+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
Arxiv
171+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
484+阅读 · 2023年3月31日
Arxiv
79+阅读 · 2023年3月26日
Arxiv
175+阅读 · 2023年3月24日
Arxiv
25+阅读 · 2023年3月17日
VIP会员
相关VIP内容
专门化大型语言模型综述
专知会员服务
31+阅读 · 8月28日
多模态大型语言模型:综述
专知会员服务
41+阅读 · 6月14日
多智能体协作机制:大语言模型综述
专知会员服务
67+阅读 · 1月14日
大语言模型训练数据
专知会员服务
68+阅读 · 2024年11月22日
表格数据的语言建模:基础、技术与演变综述
专知会员服务
38+阅读 · 2024年8月23日
数据与多模态大型语言模型的协同作用综述
专知会员服务
56+阅读 · 2024年7月13日
大型语言模型的模型压缩与高效推理:综述
专知会员服务
92+阅读 · 2024年2月17日
相关资讯
数据受限条件下的多模态处理技术综述
专知
20+阅读 · 2022年7月16日
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
综述| 当图神经网络遇上强化学习
图与推荐
34+阅读 · 2022年7月1日
清华大学《高级机器学习》课程
专知
40+阅读 · 2020年7月21日
多模态多任务学习新论文
专知
46+阅读 · 2019年2月9日
见微知著:语义分割中的弱监督学习
深度学习大讲堂
11+阅读 · 2017年12月6日
语义分割中的深度学习方法全解:从FCN、SegNet到DeepLab
炼数成金订阅号
26+阅读 · 2017年7月10日
相关基金
国家自然科学基金
9+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
微信扫码咨询专知VIP会员