视觉与听觉相结合的深度跨域情绪识别

会员服务 ·

视觉与听觉相结合的深度跨域情绪识别

2020 年 4 月 24 日 PaperWeekly

©PaperWeekly 原创 · 作者｜张玮玮

单位｜东北大学硕士生

研究方向｜情绪识别

论文标题：Joint Deep Cross-Domain Transfer Learning for Emotion Recognition

论文地址：https://arxiv.org/abs/2003.11136

引言

1.1 论文动机

众所周知，自动情感识别的挑战是缺乏足够的标记数据来训练稳健的情绪分类模型。大型数据集准确地标注情感类别不仅成本高昂而且耗时，还需要具体的技能和知识。为了解决情感分类中数据缺乏的问题，迁移学习方法被广泛采用。

然而，在不同的领域（例如，从视觉领域到听觉领域，反之亦然）传递知识是一项具有挑战性的任务。当在不同的数据集上执行训练/测试时，对迁移学习也提出了更大的挑战，由于数据集之间的分布变化，常常会引起性能的显著下降。

1.2 论文工作

为了在不受分布变化影响的情况下，完成在多个数据集和多个资源贫乏的数据集上传递情感知识的任务，作者提出了一种联合的深度跨域学习方法，旨在学习跨域知识，并将学习到的知识从庞大的数据集中联合转移到数据量贫乏的数据集中，提高了情感识别的性能。

算法旨在学习跨越视觉和听觉领域的情感知识，并将跨领域的知识转移到多个缺乏源的数据集。

论文方法

表示视觉数据的源数据集，是音频数据的源数据集，N 个可视化目标数据集表示为，所有的目标数据集都是资源贫乏的，并且包含少量带注释的数据。

如图所示，作者首先使用可视化数据集训练一个初始模型。该初始模型也被认为是预训练模型，然后使用目标数据集进行微调。

这一步的结果是一个跨数据的微调模型，我们将应用于个目标数据集产生个跨域微调模型。为了迁移所有目标域共享的知识，最后的个跨域微调模型被联合训练。

在预先训练的模型中获得的情感知识可以在跨域迁移步骤中重复使用。进行这种跨域迁移的原因是，在进行联合学习之前，将学习到的情绪知识从预先训练好的模型中，从视觉域迁移到听觉情绪域，是因为视觉域和听觉域之间存在互补信息。

因此，它可以为当前的模型积累有用的情感知识。利用我们提出的联合学习算法，在这些资源贫乏的数据集上同时最小化类内情绪方差和最大化类间情绪方差，将学习到的该模型的情绪知识迁移到多个数据集。

给定输入特征向量及其对应的标签，交叉熵损失公式如下：

，与分别表示目标域类别和 softmax 层参数；是目标概率分布，是预测的概率分布。通过同时优化两个交叉熵损失，我们在最终域上的模型微调的累积参数集现在被传输和重用，作为我们在两个不同的视觉域上的联合学习的初始知识。

对比损失计算如下:

，，分别来自于，，，来自于同一类情绪， =1，否则 =0。

因此，联合学习算法的训练损失函数定义如下:

算法的目标是学习特征提取函数中的参数。，，参数引入传播两个情感分类信号和一个情感匹配信号。联合学习算法在测试过程中的伪代码如算法1所示。

结果

视频情感识别模型的实验结果分别如表 2 和表 4 所示 : V_eNTER_Model 在视频数据集 eNTERFACE 上进行预训练，V_SAV_Model (Fine-tuned) 微调全连接层的 V eNTER Model 预训练模型。

如表 3 结果所示，在 audio SAVEE 数据集上，不断微调 V_SAV_Model 的所有层。同样，与其他最先进的语音情感识别模型相比，A_EMO_Model (Fine-tuned) 表现最佳 (89%)，明显优于 A_EMO_Model (67%)，如表 5 所示。

如表 7 所示，尽管通过简单地结合 visual eNTERFACE 和 visual SAVEE 来扩大多个数据集进行学习，V_SAV_eNTER_Model 在识别精度上并没有显著的提高。虽然通过联合优化两个交叉熵损失来学习 V_SAV_eNTER_Model，该模型仍然存在跨数据集分布偏移的问题。

相比之下，从表 7 中可以看出，采用表 1 中详细描述的联合学习算法进行学习时，模型的性能得到了极大的提高，同时优化了两个交叉熵损失和一个对比损失。这说明模型可以很好地泛化多个数据集，从而成功地解决了数据集之间的分布移位问题。