Visual Emotion Comprehension (VEC) aims to infer sentiment polarities or emotion categories from affective cues embedded in images. In recent years, Multimodal Large Language Models (MLLMs) have established a popular paradigm in VEC, leveraging their generalizability to unify VEC tasks defined under diverse emotion taxonomies. While this paradigm achieves notable success, it typically formulates VEC as a deterministic task, requiring the model to output a single, definitive emotion label for each image. Such a formulation insufficiently accounts for the inherent subjectivity of emotion perception, overlooking alternative interpretations that may be equally plausible to different viewers. To address this limitation, we propose equipping MLLMs with capabilities to verbalize their confidence in emotion predictions. This additional signal provides users with an estimate of both the plausibility of alternative interpretations and the MLLMs' self-assessed competence, thereby enhancing reliability in practice. Building on this insight, we introduce a three-stage training framework that progressively endows with structured reasoning, teaches to verbalize confidence, and calibrates confidence expression, culminating in EmoCaliber, a confidence-aware MLLM for VEC. Through fair and comprehensive evaluations on the unified benchmark VECBench, EmoCaliber demonstrates overall superiority against existing methods in both emotion prediction and confidence estimation. These results validate the effectiveness of our approach and mark a feasible step toward more reliable VEC systems. Project page: https://github.com/wdqqdw/EmoCaliber.


翻译:视觉情感理解(VEC)旨在从图像中蕴含的情感线索推断情感极性或情绪类别。近年来,多模态大语言模型(MLLMs)凭借其泛化能力,统一了不同情绪分类体系下的VEC任务,成为该领域的主流范式。尽管该范式取得了显著成功,但通常将VEC视为确定性任务,要求模型为每张图像输出单一、确定的情感标签。这种设定未能充分考虑情感感知固有的主观性,忽略了对于不同观察者可能同样合理的替代解释。为解决这一局限,我们提出为MLLMs配备表达其情感预测置信度的能力。这一额外信号为用户提供了替代解释的可能性以及MLLMs自我评估能力的估计,从而在实践中增强了可靠性。基于此洞见,我们引入了一个三阶段训练框架,逐步赋予模型结构化推理能力、教导其言语化置信度,并校准置信度表达,最终形成了EmoCaliber——一个用于VEC的置信度感知MLLM。通过在统一基准VECBench上进行公平全面的评估,EmoCaliber在情感预测和置信度估计两方面均展现出相对于现有方法的整体优越性。这些结果验证了我们方法的有效性,标志着向更可靠的VEC系统迈出了可行的一步。项目页面:https://github.com/wdqqdw/EmoCaliber。

0
下载
关闭预览

相关内容

【ACMMM2025】EvoVLMA: 进化式视觉-语言模型自适应
专知会员服务
15+阅读 · 8月5日
【AAAI2021】知识增强的视觉-语言预训练技术 ERNIE-ViL
专知会员服务
26+阅读 · 2021年1月29日
NAACL 2019 | 一种考虑缓和KL消失的简单VAE训练方法
PaperWeekly
20+阅读 · 2019年4月24日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
51+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
51+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员