Speech emotion recognition is a challenging task because the emotion expression is complex, multimodal and fine-grained. In this paper, we propose a novel multimodal deep learning approach to perform fine-grained emotion recognition from real-life speeches. We design a temporal alignment pooling mechanism to capture the subtle and fine-grained emotions implied in every utterance. In addition, we propose a cross modality excitation module to conduct sample-specific activations on acoustic embedding dimensions and adaptively recalibrate the corresponding values by latent semantic features. The proposed model is evaluated on two well-known real-world speech emotion recognition datasets. The results demonstrate that our approach is superior on the prediction tasks for multimodal speech utterances, and it outperforms a wide range of baselines in terms of prediction accuracy. In order to encourage the research reproducibility, we make the code publicly available at https://github.com/hzlihang99/icassp2021_CME.git.


翻译:由于情感表达方式复杂、多式且精细细微,因此语音情绪识别是一项具有挑战性的任务。在本文中,我们提出一种新的多式深层次学习方法,从真实生活中的演讲中进行精细的情感识别。我们设计了一个时间调整集合机制,以捕捉每个演讲中隐含的微妙和细微的情感。此外,我们提出一个跨模式激励模块,在声学嵌入维度上进行样本特有的激活,并根据潜在语义特征对相应的值进行适应性校正。在两个著名的真实世界语音识别数据集中,对拟议模型进行了评估。结果显示,我们的方法优于多式演讲的预测任务,在预测准确性方面超越了广泛的基线。为了鼓励研究的可复制性,我们在https://github.com/hzlihangh99/icassp2021_CME.git上公布了该代码。

0
下载
关闭预览

相关内容

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
165+阅读 · 2020年3月18日
深度学习界圣经“花书”《Deep Learning》中文版来了
专知会员服务
239+阅读 · 2019年10月26日
【资源】语音增强资源集锦
专知
8+阅读 · 2020年7月4日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
43+阅读 · 2019年1月3日
已删除
将门创投
7+阅读 · 2018年4月25日
Arxiv
0+阅读 · 2020年12月3日
Arxiv
1+阅读 · 2020年12月3日
Arxiv
0+阅读 · 2020年11月26日
VIP会员
相关VIP内容
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
165+阅读 · 2020年3月18日
深度学习界圣经“花书”《Deep Learning》中文版来了
专知会员服务
239+阅读 · 2019年10月26日
Top
微信扫码咨询专知VIP会员