Understanding how visual content communicates sentiment is critical in an era where online interaction is increasingly dominated by this kind of media on social platforms. However, this remains a challenging problem, as sentiment perception is closely tied to complex, scene-level semantics. In this paper, we propose an original framework, MLLMsent, to investigate the sentiment reasoning capabilities of Multimodal Large Language Models (MLLMs) through three perspectives: (1) using those MLLMs for direct sentiment classification from images; (2) associating them with pre-trained LLMs for sentiment analysis on automatically generated image descriptions; and (3) fine-tuning the LLMs on sentiment-labeled image descriptions. Experiments on a recent and established benchmark demonstrate that our proposal, particularly the fine-tuned approach, achieves state-of-the-art results outperforming Lexicon-, CNN-, and Transformer-based baselines by up to 30.9%, 64.8%, and 42.4%, respectively, across different levels of evaluators' agreement and sentiment polarity categories. Remarkably, in a cross-dataset test, without any training on these new data, our model still outperforms, by up to 8.26%, the best runner-up, which has been trained directly on them. These results highlight the potential of the proposed visual reasoning scheme for advancing affective computing, while also establishing new benchmarks for future research.


翻译:在社交媒体平台日益被视觉内容主导的在线互动时代,理解视觉内容如何传达情感至关重要。然而,这仍是一个具有挑战性的问题,因为情感感知与复杂的场景级语义紧密相关。本文提出了一种原创框架MLLMsent,从三个视角探究多模态大语言模型(MLLMs)的情感推理能力:(1)利用MLLMs直接从图像进行情感分类;(2)将其与预训练的大语言模型结合,对自动生成的图像描述进行情感分析;(3)在情感标注的图像描述上对大语言模型进行微调。在近期建立的基准测试上的实验表明,我们的方案,特别是微调方法,取得了最先进的结果,在不同评估者一致性和情感极性类别上,分别比基于词典、CNN和Transformer的基线方法高出最多30.9%、64.8%和42.4%。值得注意的是,在跨数据集测试中,即使未对这些新数据进行任何训练,我们的模型仍比直接在这些数据上训练的最佳次优模型高出最多8.26%。这些结果突显了所提出的视觉推理方案在推进情感计算方面的潜力,同时也为未来研究确立了新的基准。

0
下载
关闭预览

相关内容

【AAAI2024】大型语言模型是神经符号推理器
专知会员服务
37+阅读 · 2024年1月18日
从语言模型到语言智能体,普林斯顿Shunyu Yao
专知会员服务
62+阅读 · 2023年9月18日
UTC: 用于视觉对话的任务间对比学习的统一Transformer
专知会员服务
14+阅读 · 2022年5月4日
【ACL2020-密歇根州立大学】语言和视觉推理的跨模态关联
【CVPR 2020 Oral】小样本类增量学习
专知
20+阅读 · 2020年6月26日
误差反向传播——CNN
统计学习与视觉计算组
30+阅读 · 2018年7月12日
神经网络机器翻译原理:LSTM、seq2seq到Zero-Shot
北京思腾合力科技有限公司
11+阅读 · 2017年8月10日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
VIP会员
相关VIP内容
【AAAI2024】大型语言模型是神经符号推理器
专知会员服务
37+阅读 · 2024年1月18日
从语言模型到语言智能体,普林斯顿Shunyu Yao
专知会员服务
62+阅读 · 2023年9月18日
UTC: 用于视觉对话的任务间对比学习的统一Transformer
专知会员服务
14+阅读 · 2022年5月4日
【ACL2020-密歇根州立大学】语言和视觉推理的跨模态关联
相关资讯
【CVPR 2020 Oral】小样本类增量学习
专知
20+阅读 · 2020年6月26日
误差反向传播——CNN
统计学习与视觉计算组
30+阅读 · 2018年7月12日
神经网络机器翻译原理:LSTM、seq2seq到Zero-Shot
北京思腾合力科技有限公司
11+阅读 · 2017年8月10日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员