Emotion recognition from speech is a challenging task. Re-cent advances in deep learning have led bi-directional recur-rent neural network (Bi-RNN) and attention mechanism as astandard method for speech emotion recognition, extractingand attending multi-modal features - audio and text, and thenfusing them for downstream emotion classification tasks. Inthis paper, we propose a simple yet efficient neural networkarchitecture to exploit both acoustic and lexical informationfrom speech. The proposed framework using multi-scale con-volutional layers (MSCNN) to obtain both audio and text hid-den representations. Then, a statistical pooling unit (SPU)is used to further extract the features in each modality. Be-sides, an attention module can be built on top of the MSCNN-SPU (audio) and MSCNN (text) to further improve the perfor-mance. Extensive experiments show that the proposed modeloutperforms previous state-of-the-art methods on IEMOCAPdataset with four emotion categories (i.e., angry, happy, sadand neutral) in both weighted accuracy (WA) and unweightedaccuracy (UA), with an improvement of 5.0% and 5.2% respectively under the ASR setting.


翻译:深层学习的新进展导致双向循环回发神经神经网络(Bi-RNNN)和关注机制,作为语音情绪识别的标准方法,提取和学习多式功能----音频和文字,然后将其用于下游情感分类任务。在本文中,我们提议了一个简单而有效的神经网络结构,以利用语音和语言法信息。拟议的框架使用多规模的共进层(MSCNN)获得音频和文字隐藏式演示。然后,一个统计集合单位(SPU)用来进一步提取每种模式的特征。在一边,可在MSCNN-SPU(音频和文字)和MSCNNN(文字)的顶部建立一个关注模块,以进一步改进感应。 广泛的实验显示,拟议的模型将IEMOCAPDataset(即愤怒、快乐、悲伤和中性)先前的状态方法与四种情感类别(即愤怒、快乐、悲伤和中性)相比,在加权精度准确性A5.0(WA)和未加权的精度下分别设定A%的精度。

0
下载
关闭预览

相关内容

Attention机制最早是在视觉图像领域提出来的,但是真正火起来应该算是google mind团队的这篇论文《Recurrent Models of Visual Attention》[14],他们在RNN模型上使用了attention机制来进行图像分类。随后,Bahdanau等人在论文《Neural Machine Translation by Jointly Learning to Align and Translate》 [1]中,使用类似attention的机制在机器翻译任务上将翻译和对齐同时进行,他们的工作算是是第一个提出attention机制应用到NLP领域中。接着类似的基于attention机制的RNN模型扩展开始应用到各种NLP任务中。最近,如何在CNN中使用attention机制也成为了大家的研究热点。下图表示了attention研究进展的大概趋势。
专知会员服务
110+阅读 · 2020年3月12日
注意力机制模型最新综述
专知会员服务
268+阅读 · 2019年10月20日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
Multi-Task Learning的几篇综述文章
深度学习自然语言处理
15+阅读 · 2020年6月15日
深度自进化聚类:Deep Self-Evolution Clustering
我爱读PAMI
15+阅读 · 2019年4月13日
Attention!注意力机制模型最新综述
专知
65+阅读 · 2019年4月8日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
ACL 2018 计算语言学协会接受论文列表
专知
3+阅读 · 2018年4月27日
Arxiv
19+阅读 · 2018年3月28日
Arxiv
3+阅读 · 2017年11月12日
VIP会员
相关VIP内容
专知会员服务
110+阅读 · 2020年3月12日
注意力机制模型最新综述
专知会员服务
268+阅读 · 2019年10月20日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
Top
微信扫码咨询专知VIP会员