本文介绍一篇于 ACM MM 2021 上发表,备受关注的 Oral 论文《HetEmotionNet: Two-Stream Heterogeneous Graph Recurrent Neural Network for Multi-modal Emotion Recognition》,该论文以多模态情感数据的高精度分类为研究目标,提出了一种双流异质图递归神经网络进行多模态情绪数据的分类。
尽管现有方法能够达到较高的分类表现,但是如何充分利用多模态生理时间序列的时-频-空域特征互补性、异质性和相关性进行情感识别仍然具有挑战。该论文提出了一种新颖的异质图神经网络 HetEmotionNet,在统一的框架下同时建模了多模态数据的特征互补性、相关性和异质性。HetEmotionNet 在两个真实世界数据中与现有的 SOTA 模型相比较实现了最佳的性能。
原文地址:
https://arxiv.org/abs/2108.03354
https://github.com/ziyujia/HetEmotionNet
https://ziyujia.github.io/
https://ziyujia.github.io/slides/HetEmotionNet_slides.pdf
研究背景
情绪是由思维感觉和行为表现组成的生理和心理的状态。提到情绪识别,人们的第一反应是通过图像、文本、声音等形式进行识别,一般不会想到利用生理信号。尽管图像、文本、声音数据比较容易收集,也能够达到不错的效果,但人的面部表情和声音容易被伪装、掩盖,不一定能反映真实情感。基于生理信号的情绪识别可以避免此类情况,生理信号是人生理情况的客观反应,不容易被伪装。此外,多模态的生理信号也是未来发展的趋势。
研究动机
基于生理信号的情绪识别在情感计算中起着重要的作用,但现有的工作仍存在下面几个问题:
1. 如何有效的利用时频空域信息的互补性。
生理信号空间域中的时域信息和频域信息通常具有不同的激活程度。例如,图 1 显示了不同情绪状态下 EEG 信号在空间域中时域和频域特征的差异。例如,在时空域中,时域信息的激活程度直接反映了大脑的活动。高激活度通常与积极情绪有关,低激活度通常与消极情绪有关。在频空域中,𝛾 波段的激活度通常在消极情绪中较高,在积极情绪中较低。
现有工作大多数仅分别从时空或频空方面提取信号特征并进行分类。而最新的同时考虑时频空特征的研究 SST-EmotionNet 基于通道电极的空间关系采用了网格图的方式来组织通道数据并对空白区域填充了 0。
图
2(a) 示意了该网格图的构造方法。
但这样做存在两方面的问题:
1.
由于事实上没有放置电极的脑部区域仍旧有着电信号。
所以填充
0 会引入噪声。
2.
物理位置相近的通道间不一定有着数据上的高关联。
而图 2(b)中图的构造方法可以反应通道间的拓扑关系且不用填入噪声。
▲ 图2:两种EEG通道的空间表示。(a):将EEG信号组织成2D map形式。(b):将EEG信号组织成图的形式
2. 如何同时建模多模态数据中的相关性和异质性。
多模态生理信号存在异质性和相关性。模态之间的异质性体现在从不同器官收集的各种信号的属性之间的差异。例如在图 3 中 EEG 信号和 ECG 信号在波形和振幅上有很大的差异。相关性包括模态内相关性和跨模态相关性。模态内相关性是同一模态中通道之间的关系,如图 2(b)所示的功能连接。跨模态相关性是不同模态的通道之间的关系。
例如,当参与者处于恐惧状态时,心电信号反映更大的心率加速,伴随着 GSR 信号的增加以及右额叶脑电信号的高激活程度。但现有方法仅分别建模了多模态生理信号的相关性或异质性。
本文针对以上问题,提出了一种基于多模态生理信号的双流异质图递归神经网络 HetEmotionNet。
论文贡献
该模型构造了情绪异质图序列并输入到了双流结构中,同时捕获多模态生理信号的时-频-空三类特征;同时该模型利用了 GTN 来建模多模态生理信号的异质性,GCN 来建模多模态生理信号的相关性,并用 GRU 来提取多模态生理信号时域和频域间的依赖关系。本文的主要贡献可被概述如下:
HetEmotionNet:双流异质图递归神经网络
模型由结构一致但相互独立的时空流与频空流组成,它们分别用于提取多模态生理信号的时空特征与频空特征,输入分别为构建的时空和频空图序列。每一流都是一个异质图递归神经网络,由图转换网络(Graph Tansformer Network),图卷积神经网络(Graph Convolution Network)和门控循环单元层(Gated Recurrent Units)组合而成。最后,本文将两流网络提取得到的时频空域特征融合并用于情绪分类。
对于每个样本,我们分别构建了一个异质的时空图序列和一个异质的频空图序列,如图 5 所示。这些异质图被用来描述多模态信号时域信息和频域信息在空间上的分布。我们主要分成以下三个步骤来构建时空图序列:
由于模型的时空流和频空流有着相同的结构,都是一个异质图递归神经网络,所以我们以时空流为例介绍。异质图递归神经网络由图转换网络(GTN),图神经网络(GCN)和门控循环单元(GRU)构成。三个部分的作用分别如下:
实验
本文在 DEAP 与 MAHNOB-HCI 两个多模态情绪识别数据集上进行实验并对模型进行评估,结果如下:
HetEmotionNet 在两个数据集上均取得了优于所有基线方法的性能。我们认为模型分类性能提升的原因有以下几点:
1. 不同于现有的方法,HetEmotionNet 在基于图的结构下同时捕获了多模态生理信号的时-频-空域特征,并利用了各种特征之间的互补性进行情绪分类。
2. 同时建模了多模态生理信号数据的异质性和相关性并提升了分类表现。
结论
本文提出了一种多模态情绪识别模型 HetEmotionNet。该模型使用基于图的双流结构同时捕获多模态生理信号的时-频-空三类特征;同时该模型利用了 GTN 来建模多模态生理信号的异质性,GCN 来建模多模态生理信号的相关性并用 GRU 来提取多模态生理信号时域和频域间的依赖关系。在公开的多模态情绪识别数据集 DEAP 与 MANODB-HCI 上的实验表明,该模型有着出色的性能并优于基线方法。
感谢 TCCI 天桥脑科学研究院对于 PaperWeekly 的支持。TCCI 关注大脑探知、大脑功能和大脑健康。
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:hr@paperweekly.site
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧