Speech Emotion Recognition (SER) has significant potential for mobile applications, yet deployment remains constrained by the computational demands of state-of-the-art transformer architectures. This paper presents a mobile-efficient SER system based on DistilHuBERT, a distilled and 8-bit quantized transformer that achieves 92% parameter reduction compared to full-scale Wav2Vec 2.0 models while maintaining competitive accuracy. We conduct a rigorous 5-fold Leave-One-Session-Out (LOSO) cross-validation on the IEMOCAP dataset to ensure speaker independence, augmented with cross-corpus training on CREMA-D to enhance generalization. Cross-corpus training with CREMA-D yields a 1.2% improvement in Weighted Accuracy, a 1.4% gain in Macro F1-score, and a 32% reduction in cross-fold variance, with the Neutral class showing the most substantial benefit at 5.4% F1-score improvement. Our approach achieves an Unweighted Accuracy of 61.4% with a quantized model footprint of only 23 MB, representing approximately 91% of full-scale baseline performance. Cross-corpus evaluation on RAVDESS reveals that the theatrical nature of acted emotions causes predictions to cluster by arousal level rather than valence: happiness is systematically confused with anger due to acoustic saturation in high-energy expressions. Despite this theatricality effect reducing overall RAVDESS accuracy to 43.29%, the model maintains robust arousal detection with 97% recall for anger and 64% for sadness. These findings establish a Pareto-optimal tradeoff between model size and accuracy, enabling practical affect recognition on resource-constrained mobile devices.


翻译:语音情感识别在移动应用中具有重要潜力,但其部署仍受限于先进Transformer架构的高计算需求。本文提出一种基于DistilHuBERT的移动端高效SER系统,该蒸馏化8位量化Transformer相较完整版Wav2Vec 2.0模型实现了92%的参数压缩,同时保持具有竞争力的准确率。我们在IEMOCAP数据集上执行严格的5折留出会话交叉验证以确保说话人独立性,并辅以CREMA-D的跨语料库训练来增强泛化能力。跨语料库训练使加权准确率提升1.2%,宏观F1分数提高1.4%,跨折方差降低32%,其中中性类别获益最为显著,F1分数提升达5.4%。该方法在量化模型仅23MB存储占用的条件下实现了61.4%的非加权准确率,达到完整基线模型约91%的性能水平。在RAVDESS上的跨语料库评估表明,表演性情感表达的戏剧化特性导致预测结果按唤醒度而非效价聚类:由于高能量表达中的声学饱和现象,快乐情绪被系统性地误判为愤怒。尽管这种戏剧化效应使RAVDESS整体准确率降至43.29%,模型仍保持稳健的唤醒度检测能力,愤怒情绪召回率达97%,悲伤情绪达64%。这些发现确立了模型规模与准确率之间的帕累托最优权衡,为资源受限移动设备实现实用的情感识别提供了可行方案。

0
下载
关闭预览

相关内容

【KDD2024】面向课程图稀疏化的轻量级图神经网络搜索
专知会员服务
19+阅读 · 2024年6月25日
【CVPR2023】DynamicDet:目标检测的统一动态架构
专知会员服务
26+阅读 · 2023年4月15日
AAAI 2022 | ProtGNN:自解释图神经网络
专知
10+阅读 · 2022年2月28日
Single-Shot Object Detection with Enriched Semantics
统计学习与视觉计算组
14+阅读 · 2018年8月29日
LibRec 每周算法:DeepFM
LibRec智能推荐
14+阅读 · 2017年11月6日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
VIP会员
相关资讯
AAAI 2022 | ProtGNN:自解释图神经网络
专知
10+阅读 · 2022年2月28日
Single-Shot Object Detection with Enriched Semantics
统计学习与视觉计算组
14+阅读 · 2018年8月29日
LibRec 每周算法:DeepFM
LibRec智能推荐
14+阅读 · 2017年11月6日
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员