Speech Emotion Recognition (SER) systems often degrade in performance when exposed to the unpredictable acoustic interference found in real-world environments. Additionally, the opacity of deep learning models hinders their adoption in trust-sensitive applications. To bridge this gap, we propose a Hybrid Transformer-CNN framework that unifies the contextual modeling of Wav2Vec 2.0 with the spectral stability of 1D-Convolutional Neural Networks. Our dual-stream architecture processes raw waveforms to capture long-range temporal dependencies while simultaneously extracting noise-resistant spectral features (MFCC, ZCR, RMSE) via a custom Attentive Temporal Pooling mechanism. We conducted extensive validation across four diverse benchmark datasets: RAVDESS, TESS, SAVEE, and CREMA-D. To rigorously test robustness, we subjected the model to non-stationary acoustic interference using real-world noise profiles from the SAS-KIIT dataset. The proposed framework demonstrates superior generalization and state-of-the-art accuracy across all datasets, significantly outperforming single-branch baselines under realistic environmental interference. Furthermore, we address the ``black-box" problem by integrating SHAP and Score-CAM into the evaluation pipeline. These tools provide granular visual explanations, revealing how the model strategically shifts attention between temporal and spectral cues to maintain reliability in the presence of complex environmental noise.


翻译:语音情感识别系统在现实环境中面对不可预测的声学干扰时,其性能往往会下降。此外,深度学习模型的不透明性阻碍了其在信任敏感应用中的采用。为弥合这一差距,我们提出了一种混合Transformer-CNN框架,该框架将Wav2Vec 2.0的上下文建模能力与一维卷积神经网络的谱稳定性相统一。我们的双流架构处理原始波形以捕获长程时序依赖关系,同时通过定制的注意力时序池化机制提取抗噪声的谱特征。我们在四个不同的基准数据集上进行了广泛验证:RAVDESS、TESS、SAVEE和CREMA-D。为严格测试鲁棒性,我们使用来自SAS-KIIT数据集的真实世界噪声配置文件,使模型承受非平稳声学干扰。所提出的框架在所有数据集上均表现出卓越的泛化能力和最先进的准确率,在现实环境干扰下显著优于单分支基线模型。此外,我们通过将SHAP和Score-CAM集成到评估流程中,解决了“黑盒”问题。这些工具提供了细粒度的可视化解释,揭示了模型如何在存在复杂环境噪声的情况下,策略性地在时序线索和谱线索之间转移注意力以保持可靠性。

0
下载
关闭预览

相关内容

【ACL2020-Facebook AI】大规模无监督跨语言表示学习
专知会员服务
34+阅读 · 2020年4月5日
AAAI 2022 | ProtGNN:自解释图神经网络
专知
10+阅读 · 2022年2月28日
【NeurIPS2019】图变换网络:Graph Transformer Network
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
VIP会员
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员