【团队新作】连续情感识别，精准捕捉你的小情绪！

2018 年 4 月 17 日 中国科学院自动化研究所 紫冬君

CASIA

点击蓝字关注我们↑↑↑↑

今日聚焦

自动化所智能交互课题组基于3D卷积神经网络，推出端到端的连续情感识别系统，将特征提取和情感识别融合到统一框架中进行处理，同时编码空间信息与时序信息，利用ConvLSTM对情感的长时信息进行建模。该方法优化了操作步骤，并取得了更优良的效果。

电影《我的机器人女友》中，大学生次郎在自己二十岁生日那天邂逅了一个来自未来的机器人女孩，她会说、会笑、让次郎单调的生活充满了欢乐。最终，两人超越生物人和机器人的隔阂，创造了爱的奇迹。现实生活中，这样的奇迹能否发生？机器人真的能够识别人的情感吗？

图像识别、人脸识别一直是人工智能领域的关键技术，其中，情感识别是基于多项人工智能技术、赋予计算机或机器人识别人类内在情感的能力。情感识别在智能人机交互中具有极其重要的作用，可以使交互更加自然和谐。

连续情感识别是指将情感状态映射到连续空间维度上，给每一帧分配一个情感坐标，常用的情感维度包括激活度（表示个体的神经生理激活水平）和愉悦度（表示个体情感状态的正负特性）两个维度。连续状态空间情感识别能够对情感的动态变化过程进行建模，描绘出情感的时序变化过程。

传统情感识别系统的弊端

传统的连续情感识别系统是多步骤进行的，主要分为特征提取和情感识别两个部分。“特征提取”的任务是提取和选取与情感相关的特征，“情感识别”将提取的情感特征送入识别器中进行识别，得到最终结果。该方法将特征提取和识别分开，每一阶段的优化目标并不一致。并且，目前没有比较统一的情感特征，研究者们在不同的数据库和实验环境下的最优的情感特征也随之不同。因此，本课题提出了一种端到端的连续情感识别系统来避免以上两个问题。

ConvLSTM：博采CNN、LSTM之长

深度卷积神经网络（CNN）广泛地应用于图像识别中。其中，2D CNN只能够处理图片的空间信息，针对于视频信息时，2D CNN会损失时序信息；而3D CNN能对视频中连续帧进行时序编码，将空间信息和时序信息融合起来。2D CNN与3D CNN的区别如下图1所示：2D CNN将核大小为k*k 作用与H*W的图片上，3D CNN将核大小为d*k*k作用与L*H*W的视频上。（三个维度分别代表时序、长度和宽度，前一个维度代表时序维度，后两个维度代表空间维度）

(a) 2D CNN

(b) 3D CNN

图1 2D CNN与3D CNN的区别

长短时记忆模型（LSTM）相较于CNN，能够更好地学习到情感的长时动态特性。

本研究融合了CNN和LSTM，利用ConvLSTM来进行连续情感识别。ConvLSTM是CNN和LSTM的结合体，它的核心是卷积层耦合了LSTM结构，即在其输入-状态和状态-状态之间的转移都有卷积结构。因此，ConvLSTM 既具有CNN处理时序信息的能力，也具有LSTM处理长时动态信息的能力。本文中，ConvLSTM的卷积结构是3D CNN。

连续情感识别系统

更精简的步骤、更优良的效果

课题组利用3D卷积神经网络提出了一个端到端的连续情感识别系统，将特征提取和情感识别融合到一个统一的框架中，对输入的视频数据进行处理，同时对空间信息和时序信息进行编码，并利用ConvLSTM对情感的长时信息进行建模。系统框架如下图2所示：

图2 端到端连续情感识别系统框架

该框架避免了分步计算，利用全连接层进行连续情感识别，统一优化目标为情感识别。同时也避免了对情感特征的选取，输入是视频，输出即是情感识别结果，中间网络结构自动提取情感特征信息。我们将提出的方法在AVEC 2017 的比赛数据库上进行实验，评价标准为一致相关系数(CCC)。结果显示：在激活度上超过基线0.058 (0.583 vs 0.525)，愉悦度上超过基线0.147 (0.654 vs 0.507)，效果良好，验证了该方法的有效性。

相关研究成果“END-TO-END CONTINUOUS EMOTION RECOGNITION FROM VIDEO USING 3D CONVLSTM NETWORKS”发表在 ICASSP 2018。

英文摘要：

Conventional continuous emotion recognition consists of feature extraction step followed by regression step. However, the objective of the two steps is not consistent as they are parted. Besides, there is still no consensus about appropriate emotional features. In this study, we propose an end-to-end continuous emotion recognition framework which merges feature extraction and regressor into a unified system. We employ 3D convolutional networks with Long Short-Term Memory Neutral Network (ConvLSTM) to handle spatiotemporal information for continuous emotion recognition. This model is applied on AVEC 2017 database. The experiment results reveal that ConvLSTM model makes a positive effect on the performance improvement, which outperforms the baseline results for arousal of 0.583 vs 0.525 (baseline) and for valence of 0.654 vs 0.507.