Recent advances in multimodal large language models (MLLMs) have demonstrated remarkable multi- and cross-modal integration capabilities. However, their potential for fine-grained emotion understanding remains systematically underexplored. While open-vocabulary multimodal emotion recognition (MER-OV) has emerged as a promising direction to overcome the limitations of closed emotion sets, no comprehensive evaluation of MLLMs in this context currently exists. To address this, our work presents the first large-scale benchmarking study of MER-OV on the OV-MERD dataset, evaluating 19 mainstream MLLMs, including general-purpose, modality-specialized, and reasoning-enhanced architectures. Through systematic analysis of model reasoning capacity, fusion strategies, contextual utilization, and prompt design, we provide key insights into the capabilities and limitations of current MLLMs for MER-OV. Our evaluation reveals that a two-stage, trimodal (audio, video, and text) fusion approach achieves optimal performance in MER-OV, with video emerging as the most critical modality. We further identify a surprisingly narrow gap between open- and closed-source LLMs. These findings establish essential benchmarks and offer practical guidelines for advancing open-vocabulary and fine-grained affective computing, paving the way for more nuanced and interpretable emotion AI systems. Associated code will be made publicly available upon acceptance.


翻译:近年来,多模态大语言模型(MLLMs)在多模态与跨模态整合方面展现出卓越能力,但其在细粒度情感理解方面的潜力尚未得到系统性探索。尽管开放词汇多模态情感识别(MER-OV)已成为突破封闭情感集合局限性的重要方向,但目前尚无研究对MLLMs在此任务中的表现进行全面评估。为此,本研究首次在OV-MERD数据集上开展了大规模MER-OV基准测试,评估了19种主流MLLMs,涵盖通用型、模态专用型及推理增强型架构。通过对模型推理能力、融合策略、上下文利用及提示设计的系统分析,我们深入揭示了当前MLLMs在MER-OV任务中的优势与局限。实验结果表明,采用两阶段三模态(音频、视频与文本)融合策略在MER-OV中取得最优性能,其中视频模态表现出最关键作用。我们进一步发现开源与闭源大语言模型之间的性能差距意外微小。这些发现为推进开放词汇与细粒度情感计算确立了重要基准,并为构建更精细、可解释的情感人工智能系统提供了实践指南。相关代码将在论文录用后公开。

0
下载
关闭预览

相关内容

RAG与RAU:自然语言处理中的检索增强语言模型综述
专知会员服务
87+阅读 · 2024年5月3日
【AAAI2024】LAMM: 多模态提示学习的标签对齐
专知会员服务
41+阅读 · 2023年12月14日
论文浅尝 | GEOM-GCN: Geometric Graph Convolutional Networks
开放知识图谱
14+阅读 · 2020年4月8日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员