We present a Multi-Window Data Augmentation (MWA-SER) approach for speech emotion recognition. MWA-SER is a unimodal approach that focuses on two key concepts; designing the speech augmentation method and building the deep learning model to recognize the underlying emotion of an audio signal. Our proposed multi-window augmentation approach generates additional data samples from the speech signal by employing multiple window sizes in the audio feature extraction process. We show that our augmentation method, combined with a deep learning model, improves speech emotion recognition performance. We evaluate the performance of our approach on three benchmark datasets: IEMOCAP, SAVEE, and RAVDESS. We show that the multi-window model improves the SER performance and outperforms a single-window model. The notion of finding the best window size is an essential step in audio feature extraction. We perform extensive experimental evaluations to find the best window choice and explore the windowing effect for SER analysis.


翻译:我们提出了一种多窗口数据增强(MWA-SER)的语音情感识别方法。 MWA-SER是一种单一方式的方法,侧重于两个关键概念;设计语音增强方法和建立深层次学习模型,以识别音频信号背后的情感。我们提议的多窗口增强方法通过在音频特征提取过程中使用多个窗口大小,从语音信号中产生更多的数据样本。我们展示了我们的增强方法,加上深层学习模型,改善了语音识别性能。我们评估了我们在三个基准数据集:IEMOCAP、SAVEE和RAVDESS上的方法的绩效。我们显示,多窗口模型改进了SER的性能并超越了单一窗口模式。找到最佳窗口大小的概念是音频特征提取过程中的一个重要步骤。我们进行了广泛的实验性评估,以找到最佳窗口选择,并探索SER分析的窗口效应。

0
下载
关闭预览

相关内容

专知会员服务
15+阅读 · 2021年5月13日
专知会员服务
79+阅读 · 2020年10月2日
机器学习入门的经验与建议
专知会员服务
92+阅读 · 2019年10月10日
近期声学领域前沿论文(No. 3)
深度学习每日摘要
24+阅读 · 2019年3月31日
(Python)3D人脸处理工具Face3d
AI研习社
7+阅读 · 2019年2月10日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
改进语音识别性能的数据增强技巧
深度学习每日摘要
8+阅读 · 2018年4月22日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【推荐】YOLO实时目标检测(6fps)
机器学习研究会
20+阅读 · 2017年11月5日
LibRec 每周算法:Wide & Deep (by Google)
LibRec智能推荐
9+阅读 · 2017年10月25日
一文读懂语音识别史
机械鸡
9+阅读 · 2017年10月16日
Arxiv
8+阅读 · 2018年11月27日
Arxiv
5+阅读 · 2018年10月4日
VIP会员
相关VIP内容
专知会员服务
15+阅读 · 2021年5月13日
专知会员服务
79+阅读 · 2020年10月2日
机器学习入门的经验与建议
专知会员服务
92+阅读 · 2019年10月10日
相关资讯
近期声学领域前沿论文(No. 3)
深度学习每日摘要
24+阅读 · 2019年3月31日
(Python)3D人脸处理工具Face3d
AI研习社
7+阅读 · 2019年2月10日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
改进语音识别性能的数据增强技巧
深度学习每日摘要
8+阅读 · 2018年4月22日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【推荐】YOLO实时目标检测(6fps)
机器学习研究会
20+阅读 · 2017年11月5日
LibRec 每周算法:Wide & Deep (by Google)
LibRec智能推荐
9+阅读 · 2017年10月25日
一文读懂语音识别史
机械鸡
9+阅读 · 2017年10月16日
Top
微信扫码咨询专知VIP会员