Indonesian, spoken by over 200 million people, remains underserved in multimodal emotion recognition research despite its dominant presence on Southeast Asian social media platforms. We introduce IndoMER, the first multimodal emotion recognition benchmark for Indonesian, comprising 1,944 video segments from 203 speakers with temporally aligned text, audio, and visual annotations across seven emotion categories. The dataset exhibits realistic challenges including cross-modal inconsistency and long-tailed class distributions shaped by Indonesian cultural communication norms. To address these challenges, we propose OmniMER, a multimodal adaptation framework built upon Qwen2.5-Omni that enhances emotion recognition through three auxiliary modality-specific perception tasks: emotion keyword extraction for text, facial expression analysis for video, and prosody analysis for audio. These auxiliary tasks help the model identify emotion-relevant cues in each modality before fusion, reducing reliance on spurious correlations in low-resource settings. Experiments on IndoMER show that OmniMER achieves 0.582 Macro-F1 on sentiment classification and 0.454 on emotion recognition, outperforming the base model by 7.6 and 22.1 absolute points respectively. Cross-lingual evaluation on the Chinese CH-SIMS dataset further demonstrates the generalizability of the proposed framework. The dataset and code are publicly available. https://github.com/yanxm01/INDOMER


翻译:印尼语使用者超过两亿,尽管其在东南亚社交媒体平台占据主导地位,但在多模态情感识别研究中仍服务不足。我们推出了IndoMER,这是首个面向印尼语的多模态情感识别基准数据集,包含来自203位说话者的1,944个视频片段,涵盖七种情感类别,并提供了时间对齐的文本、音频和视觉标注。该数据集呈现出由印尼文化交际规范塑造的现实挑战,包括跨模态不一致性和长尾类别分布。为应对这些挑战,我们提出OmniMER——一个基于Qwen2.5-Omni构建的多模态适配框架,通过三项辅助性模态专用感知任务增强情感识别能力:面向文本的情感关键词提取、面向视频的面部表情分析以及面向音频的韵律分析。这些辅助任务帮助模型在融合前识别各模态中与情感相关的线索,从而减少在低资源场景中对虚假相关性的依赖。在IndoMER上的实验表明,OmniMER在情感分类任务上达到0.582的宏平均F1值,在情感识别任务上达到0.454,分别比基线模型绝对提升7.6和22.1个百分点。在中文CH-SIMS数据集上的跨语言评估进一步证明了该框架的泛化能力。数据集与代码已公开。https://github.com/yanxm01/INDOMER

0
下载
关闭预览

相关内容

【CVPR2024】SHiNe:用于开放词汇目标检测的语义层次枢纽
专知会员服务
14+阅读 · 2024年5月18日
【NeurIPS2023】PAXION:在视频-语言基础模型中修补动作知识
ICLR'21 | GNN联邦学习的新基准
图与推荐
12+阅读 · 2021年11月15日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员