Speech emotion recognition is a challenging and important research topic that plays a critical role in human-computer interaction. Multimodal inputs can improve the performance as more emotional information is used for recognition. However, existing studies learnt all the information in the sample while only a small portion of it is about emotion. Moreover, under the multimodal framework, the interaction between different modalities is shallow and insufficient. In this paper, a keysparse Transformer is proposed for efficient SER by only focusing on emotion related information. Furthermore, a cascaded cross-attention block, which is specially designed for multimodal framework, is introduced to achieve deep interaction between different modalities. The proposed method is evaluated by IEMOCAP corpus and the experimental results show that the proposed method gives better performance than the state-of-theart approaches.


翻译:语音情绪识别是一个具有挑战性的重要研究课题,在人与计算机的互动中发挥着关键作用。多模式投入可以提高性能,因为更多的情感信息被用于识别。但是,现有研究只学到了样本中的所有信息,而其中只有一小部分是情感信息。此外,在多式联运框架下,不同模式之间的互动是浅而不充分的。在本文中,为高效的SER建议了一个关键开关变换器,仅侧重于情感相关信息。此外,还引入了一个为多式联运框架专门设计的级联交叉注意块,以实现不同模式之间的深入互动。拟议的方法由IMOC文集和实验结果表明,拟议方法的绩效优于最先进的方法。

0
下载
关闭预览

相关内容

专知会员服务
45+阅读 · 2021年9月3日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
59+阅读 · 2019年10月17日
【深度学习视频分析/多模态学习资源大列表】
专知会员服务
91+阅读 · 2019年10月16日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
一文读懂Attention机制
机器学习与推荐算法
63+阅读 · 2020年6月9日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
已删除
德先生
53+阅读 · 2019年4月28日
简评 | Video Action Recognition 的近期进展
极市平台
20+阅读 · 2019年4月21日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
跨越注意力:Cross-Attention
我爱读PAMI
172+阅读 · 2018年6月2日
Arxiv
31+阅读 · 2021年6月30日
Arxiv
4+阅读 · 2019年12月2日
Arxiv
6+阅读 · 2019年7月11日
VIP会员
Top
微信扫码咨询专知VIP会员