【团队新作】连续情感识别,精准捕捉你的小情绪!

2018 年 4 月 17 日 中国科学院自动化研究所 紫冬君
CASIA
点击蓝字关注我们↑↑↑↑

今日聚焦

自动化所智能交互课题组基于3D卷积神经网络,推出端到端的连续情感识别系统,将特征提取和情感识别融合到统一框架中进行处理,同时编码空间信息与时序信息,利用ConvLSTM对情感的长时信息进行建模。该方法优化了操作步骤,并取得了更优良的效果。

电影《我的机器人女友》中,大学生次郎在自己二十岁生日那天邂逅了一个来自未来的机器人女孩,她会说、会笑、让次郎单调的生活充满了欢乐。最终,两人超越生物人和机器人的隔阂,创造了爱的奇迹。现实生活中,这样的奇迹能否发生?机器人真的能够识别人的情感吗?


图像识别、人脸识别一直是人工智能领域的关键技术,其中,感识别是基于多项人工智能技术、赋予计算机或机器人识别人类内在情感的能力。情感识别在智能人机交互中具有极其重要的作用,可以使交互更加自然和谐。

连续情感识别是指将情感状态映射到连续空间维度上,给每一帧分配一个情感坐标,常用的情感维度包括激活度(表示个体的神经生理激活水平)和愉悦度(表示个体情感状态的正负特性)两个维度。 连续状态空间情感识别能够对情感的动态变化过程进行建模,描绘出情感的时序变化过程。


传统情感识别系统的弊端


传统的连续情感识别系统是多步骤进行的,主要分为特征提取和情感识别两个部分。“特征提取”的任务是提取和选取与情感相关的特征,“情感识别”将提取的情感特征送入识别器中进行识别,得到最终结果。该方法将特征提取和识别分开,每一阶段的优化目标并不一致。并且,目前没有比较统一的情感特征,研究者们在不同的数据库和实验环境下的最优的情感特征也随之不同。因此,本课题提出了一种端到端的连续情感识别系统来避免以上两个问题。


ConvLSTM:博采CNN、LSTM之长


深度卷积神经网络(CNN)广泛地应用于图像识别中。其中,2D CNN只能够处理图片的空间信息,针对于视频信息时,2D CNN会损失时序信息;而3D CNN能对视频中连续帧进行时序编码,将空间信息和时序信息融合起来。2D CNN与3D CNN的区别如下图1所示:2D CNN将核大小为k*k 作用与H*W的图片上,3D CNN将核大小为d*k*k作用与L*H*W的视频上。(三个维度分别代表时序、长度和宽度,前一个维度代表时序维度,后两个维度代表空间维度)


(a) 2D CNN  



(b) 3D CNN

图1 2D CNN与3D CNN的区别


长短时记忆模型(LSTM)相较于CNN,能够更好地学习到情感的长时动态特性。


本研究融合了CNN和LSTM,利用ConvLSTM来进行连续情感识别。ConvLSTM是CNN和LSTM的结合体,它的核心是卷积层耦合了LSTM结构,即在其输入-状态和状态-状态之间的转移都有卷积结构。因此,ConvLSTM 既具有CNN处理时序信息的能力,也具有LSTM处理长时动态信息的能力。本文中,ConvLSTM的卷积结构是3D CNN。


连续情感识别系统

更精简的步骤、更优良的效果

课题组利用3D卷积神经网络提出了一个端到端的连续情感识别系统将特征提取和情感识别融合到一个统一的框架中,对输入的视频数据进行处理,同时对空间信息和时序信息进行编码,并利用ConvLSTM对情感的长时信息进行建模。系统框架如下图2所示:

图2 端到端连续情感识别系统框架


该框架避免了分步计算,利用全连接层进行连续情感识别,统一优化目标为情感识别。同时也避免了对情感特征的选取,输入是视频,输出即是情感识别结果,中间网络结构自动提取情感特征信息。我们将提出的方法在AVEC 2017 的比赛数据库上进行实验,评价标准为一致相关系数(CCC)。结果显示:在激活度上超过基线0.058 (0.583 vs 0.525),愉悦度上超过基线0.147 (0.654 vs 0.507),效果良好,验证了该方法的有效性。


相关研究成果“END-TO-END CONTINUOUS EMOTION RECOGNITION FROM VIDEO USING 3D CONVLSTM NETWORKS”发表在 ICASSP 2018


英文摘要:

Conventional continuous emotion recognition consists of feature extraction step followed by regression step. However, the objective of the two steps is not consistent as they are parted. Besides, there is still no consensus about appropriate emotional features. In this study, we propose an end-to-end continuous emotion recognition framework which merges feature extraction and regressor into a unified system. We employ 3D convolutional networks with Long Short-Term Memory Neutral Network (ConvLSTM) to handle spatiotemporal information for continuous emotion recognition. This model is applied on AVEC 2017 database. The experiment results reveal that ConvLSTM model makes a positive effect on the performance improvement, which outperforms the baseline results for arousal of 0.583 vs 0.525 (baseline) and for valence of 0.654 vs 0.507.



更多精彩内容,欢迎关注

中科院自动化所官方网站:

http://www.ia.ac.cn

欢迎后台留言、推荐您感兴趣的话题、内容或资讯,小编恭候您的意见和建议!如需转载或投稿,请后台私信。

来源:自动化所智能交互课题组

作者:黄健、李雅、陶建华等

编辑:鲁宁、欧梨成

排版:智慧、胡佳

解锁更多智能之美

中科院自动化研究所

微信:casia1956

欢迎搭乘自动化所AI旗舰号!

登录查看更多
16

相关内容

计算机对从传感器采集来的信号进行分析和处理,从而得出对方(人)正处在的情感状态,这种行为叫做情感识别。
【CVPR2020】时序分组注意力视频超分
专知会员服务
30+阅读 · 2020年7月1日
基于深度学习的手语识别综述
专知会员服务
46+阅读 · 2020年5月18日
人机对抗智能技术
专知会员服务
200+阅读 · 2020年5月3日
零样本图像分类综述 : 十年进展
专知会员服务
126+阅读 · 2019年11月16日
Interspeech 2019 | 基于多模态对齐的语音情感识别
AI科技评论
23+阅读 · 2019年9月21日
SFFAI分享 | 黄健:语音情感识别【附PPT与视频资料】
人工智能前沿讲习班
30+阅读 · 2019年6月11日
【团队新作】自动化所陶建华团队: 基于真实环境的面部表情分析
中国科学院自动化研究所
9+阅读 · 2019年5月9日
语音情绪识别|声源增强|基频可视化
深度学习每日摘要
15+阅读 · 2019年5月5日
何晖光:多模态情绪识别及跨被试迁移学习
深度学习大讲堂
53+阅读 · 2019年4月23日
微表情检测和识别的研究进展与趋势
中国计算机学会
15+阅读 · 2018年3月23日
【团队新作】让机器"好好说话": 自然语言处理新进展
机器学习研究会
3+阅读 · 2018年2月1日
Arxiv
6+阅读 · 2019年4月8日
3D Face Modeling from Diverse Raw Scan Data
Arxiv
5+阅读 · 2019年2月13日
Arxiv
3+阅读 · 2018年6月19日
Arxiv
7+阅读 · 2018年1月18日
VIP会员
相关VIP内容
【CVPR2020】时序分组注意力视频超分
专知会员服务
30+阅读 · 2020年7月1日
基于深度学习的手语识别综述
专知会员服务
46+阅读 · 2020年5月18日
人机对抗智能技术
专知会员服务
200+阅读 · 2020年5月3日
零样本图像分类综述 : 十年进展
专知会员服务
126+阅读 · 2019年11月16日
相关资讯
Interspeech 2019 | 基于多模态对齐的语音情感识别
AI科技评论
23+阅读 · 2019年9月21日
SFFAI分享 | 黄健:语音情感识别【附PPT与视频资料】
人工智能前沿讲习班
30+阅读 · 2019年6月11日
【团队新作】自动化所陶建华团队: 基于真实环境的面部表情分析
中国科学院自动化研究所
9+阅读 · 2019年5月9日
语音情绪识别|声源增强|基频可视化
深度学习每日摘要
15+阅读 · 2019年5月5日
何晖光:多模态情绪识别及跨被试迁移学习
深度学习大讲堂
53+阅读 · 2019年4月23日
微表情检测和识别的研究进展与趋势
中国计算机学会
15+阅读 · 2018年3月23日
【团队新作】让机器"好好说话": 自然语言处理新进展
机器学习研究会
3+阅读 · 2018年2月1日
Top
微信扫码咨询专知VIP会员