We present a novel, Multi-Window Data Augmentation (MWA-SER) approach for speech emotion recognition. MWA-SER is a unimodal approach that focuses on two key concepts; designing the speech augmentation method to generate additional data samples and building the deep learning models to recognize the underlying emotion of an audio signal. The multi-window augmentation method extracts more audio features from the speech signal by employing multiple window sizes in the audio feature extraction process. We show that our proposed augmentation method, combined with a deep learning model, improves the speech emotion recognition performance. We evaluate the performance of our MWA-SER approach on the IEMOCAP corpus and show that our proposed method achieves state-of-the-art results. Furthermore, the proposed system demonstrated 70% and 88% accuracy while recognizing the emotions for the SAVEE and RAVDESS datasets, respectively.


翻译:我们提出了一种新颖的多窗口数据增强(MWA-SER)方法,用于语音情感识别。 MWA-SER是一种单一方式方法,侧重于两个关键概念;设计语音增强方法,以生成更多数据样本,并构建深层学习模型,以识别音频信号背后的情感。多窗口增强方法通过在音频特征提取过程中使用多个窗口大小从语音信号中提取更多的音频特征。我们表明,我们提议的增强方法,加上深层学习模型,改善了语音情感识别绩效。我们评估了我们的MWA-SER方法在 IEMOCAP Cample上的表现,并表明我们拟议的方法取得了最新的结果。此外,拟议的系统在承认SaveE和REVDESS数据集的情感的同时,分别显示了70%和88%的准确度。

0
下载
关闭预览

相关内容

数据增强在机器学习领域多指采用一些方法(比如数据蒸馏,正负样本均衡等)来提高模型数据集的质量,增强数据。
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
152+阅读 · 2019年10月12日
【资源】语音增强资源集锦
专知
8+阅读 · 2020年7月4日
用于语音识别的数据增强
AI研习社
24+阅读 · 2019年6月5日
LibRec 精选:推荐系统的常用数据集
LibRec智能推荐
17+阅读 · 2019年2月15日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Facebook PyText 在 Github 上开源了
AINLP
7+阅读 · 2018年12月14日
开源自动语音识别系统wav2letter (附实现教程)
七月在线实验室
9+阅读 · 2018年1月8日
On Feature Normalization and Data Augmentation
Arxiv
15+阅读 · 2020年2月25日
Arxiv
8+阅读 · 2018年11月27日
Arxiv
6+阅读 · 2018年7月29日
VIP会员
相关VIP内容
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
152+阅读 · 2019年10月12日
Top
微信扫码咨询专知VIP会员