Speech Emotion Recognition (SER) has significant potential for mobile applications, yet deployment remains constrained by the computational demands of state-of-the-art transformer architectures. This paper presents a mobile-efficient SER system based on DistilHuBERT, a distilled and 8-bit quantized transformer that achieves approximately 92% parameter reduction compared to full-scale Wav2Vec 2.0 models while maintaining competitive accuracy. We conduct a rigorous 5-fold Leave-One-Session-Out (LOSO) cross-validation on the IEMOCAP dataset to ensure speaker independence, augmented with cross-corpus training on CREMA-D to enhance generalization. Cross-corpus training with CREMA-D yields a 1.2% improvement in Weighted Accuracy, a 1.4% gain in Macro F1-score, and a 32% reduction in cross-fold variance, with the Neutral class showing the most substantial benefit at 5.4% F1-score improvement. Our approach achieves an Unweighted Accuracy of 61.4% with a quantized model footprint of only 23 MB, representing approximately 91% of the Unweighted Accuracy of a full-scale baseline. Cross-corpus evaluation on RAVDESS reveals that the theatrical nature of acted emotions causes predictions to cluster by arousal level rather than by specific emotion categories - happiness predictions systematically bleed into anger predictions, and sadness predictions bleed into neutral predictions, due to acoustic saturation when actors prioritize clarity over subtlety. Despite this theatricality effect reducing overall RAVDESS accuracy to 46.64%, the model maintains robust arousal detection with 99% recall for anger, 55% recall for neutral, and 27% recall for sadness. These findings demonstrate a Pareto-optimal tradeoff between model size and accuracy, enabling practical affect recognition on resource-constrained mobile devices.


翻译:语音情感识别(SER)在移动应用中具有巨大潜力,但其部署仍受限于当前最先进的Transformer架构的计算需求。本文提出了一种基于DistilHuBERT的移动高效SER系统,这是一种经过蒸馏和8位量化的Transformer模型,与完整规模的Wav2Vec 2.0模型相比,实现了约92%的参数缩减,同时保持了具有竞争力的准确率。我们在IEMOCAP数据集上进行了严格的5折留出会话交叉验证以确保说话人独立性,并辅以在CREMA-D上的跨语料库训练以增强泛化能力。使用CREMA-D进行跨语料库训练使加权准确率提高了1.2%,宏观F1分数提高了1.4%,交叉折叠方差降低了32%,其中中性类别的获益最为显著,F1分数提高了5.4%。我们的方法实现了61.4%的非加权准确率,量化模型大小仅为23 MB,达到了完整规模基线模型非加权准确率的约91%。在RAVDESS上的跨语料库评估表明,表演情感的戏剧化特性导致预测结果按唤醒水平而非特定情感类别聚集——由于演员优先考虑清晰度而非细微差别导致的声学饱和,快乐预测系统地渗入愤怒预测,悲伤预测渗入中性预测。尽管这种戏剧化效应将RAVDESS的总体准确率降低至46.64%,但该模型仍保持了稳健的唤醒检测能力,对愤怒的召回率为99%,中性的召回率为55%,悲伤的召回率为27%。这些发现展示了模型大小与准确率之间的帕累托最优权衡,使得在资源受限的移动设备上实现实用的情感识别成为可能。

0
下载
关闭预览

相关内容

【AAAI 2022】 GeomGCL:用于分子性质预测的几何图对比学习
专知会员服务
24+阅读 · 2022年2月27日
【AAAI2021】“可瘦身”的生成式对抗网络
专知会员服务
13+阅读 · 2020年12月12日
ICLR'21 | GNN联邦学习的新基准
图与推荐
12+阅读 · 2021年11月15日
论文浅尝 | GEOM-GCN: Geometric Graph Convolutional Networks
开放知识图谱
14+阅读 · 2020年4月8日
【NeurIPS2019】图变换网络:Graph Transformer Network
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员