基于情感脑电信号时-频-空特征的3D密集连接网络

2021 年 2 月 8 日 PaperWeekly

©PaperWeekly 原创 · 作者｜蔡晞阳

学校｜北京交通大学

研究方向｜时间序列分析与挖掘

本文介绍一篇北京交通大学网络科学与智能系统研究所于计算机领域顶级会议 ACM MM 2020 发表的论文，该研究提出了一种基于注意力机制的 3D DenseNet 对多媒体刺激产生的情感脑电信号进行分类，该模型在统一的框架下同时提取数据中的空间、频率、时间特征；并且设计了一种 3D 注意机制来自适应地探索具有判别力的局部模式提升情绪分类效果，在现有的多个数据集上分类表现均为最优。该文提出的模型是一个多变量脑电信号的通用框架，可以被拓展到其余信号分类任务中。

论文标题：

SST-EmotionNet: Spatial-Spectral-Temporal based Attention 3D Dense Network for EEG Emotion Recognition

论文链接：

https://dl.acm.org/doi/abs/10.1145/3394171.3413724

代码链接：

https://github.com/ziyujia/SST-EmotionNet

论文作者主页：

https://ziyujia.github.io/

背景简介

情绪会影响人类的行为，且在日常生活中发挥着重要作用。许多精神疾病与情绪有关，例如自闭症和抑郁症。因此，情绪常被用作评估患者精神障碍的参考。越来越多的研究人员专注于针对特定刺激模式引起的不同情绪的脑电图分析。研究主要集中在使用多媒体材料（包括图像，声音，文本等）设计实验来刺激大脑并暴露其认知活动以进行情感分类。

动机

2.1 挑战

2.1.1 挖掘脑电信号时-频-空特征的互补性

现存的脑电情绪模型大多仅单独使用了脑电信号的时域、频域、空域信息或是以上两种特征的组合。这些模型忽略了脑电信号时-频-空特征之间的互补性，会在一定程度上限制脑电分类模型的性能表现。如何利用脑电信号中时-频-空特征之间的互补性，这是一个挑战。

2.1.2 捕获时-频-空特征之间的局部特征

脑电信号的时-频-空特征中会存在一些反映大脑情绪的局部特征。如图中的红框所示，受试者处于积极情绪时，大脑颞叶在频段下的激活程度会比消极时更高。这些局部特征的存在有助于情绪的识别。因此，如何捕获情绪识别任务中脑电信号的局部时-频-空特征是另一个挑战。

2.2 贡献

1. 基于构建的脑电的时-频-空特征，我们提出了一种双流 3D 密集连接网络，在统一的网络框架下融合了脑电信号的时-频-空特征；

2. 我们设计了一种并行的时-频-空注意力机制，用于动态捕获在不同脑区、频段、时间之间的局部判别特征；

3. 在基准数据集的实验结果表明，提出的 SST-EmotionNet 优于传统的基线方法，取得了 SOTA 的性能。

数据表示与问题定义

脑电信号的 3D 表示的过程如图。具体而言，在本研究中，定义为长为个时间点的个 EEG 电极的数据。

利用各个电极的空间位置信息，我们将变换成2D时间平面图 , 和分别为 2D 平面图的高与宽。将所有时间点下形成的个 2D 平面图堆叠起来，我们能够得到信号的 3D 时空表示：

我们定义

为包含了 B 个频段的 EEG 信号的频域特征。其中，

为在频段下的所有电极的数据。

与时域同理，会被变换成 2D 频域平面图。将所有频段下形成的个2D平面图堆叠起来，我们能够得到信号的 3D 频空表示

。

此处，我们使用了 5 个频段的 EEG 频域特征，即。

EEG 情绪识别问题被定义如下，模型需要学习一个映射函数，将输入映射到对应的情绪标签：

此处表示映射函数，表示情绪的分类标签。

SST-EmotionNet

SST-EmotionNet 的总体架构如图所示。我们总结了本文模型的四大关键点：

1. 基于构建的脑电 3D 时-频-空特征，在一个统一的网络框架下融合了脑电信号的时-频-空特征；

2. 提出了一种并行的空-频/时注意力机制，用于动态捕获在不同脑区、频段、时间中的局部判别特征；

3. 设计了 3D 密集连接模块和过渡层帮助特征重用，加强特征传播过程，以达到更高的模型效率；

4. 使用伪 3D 模块提高 3D 卷积的内存效率与计算效率。

4.1 空-频/时注意力机制

脑电信号在不同情绪状态下的时-频-空特征激活中且存在一些有判别力的局部特征。我们设计了一种空-频/时注意力机制（SST-Attention）用于动态捕获这些有价值的局部特征。SST-Attention 由两个子组件构成：空间注意力机制与频段/时间注意力机制。

由于空-频注意力机制与空-时注意力机制在结构上较为相似，此处我们将以空-频注意力机制为例进行展示。空-频注意力机制组件的结构如图所示。首先，跨通道的全局池化（channel-wise global average pooling, cGAP）被用于减少计算成本，它被定义如下：

其中，在通道维度上退化可得到；表示 cGAP 函数；表示在张量的处的跨通道数据向量。

4.1.1 空间注意力机制

空间注意力机制用于动态关注空间上对情绪识别任务有价值的大脑区域。最开始，跨频段全局池化（band-wise global average pooling, bGAP）将用于退化频段维度，其过程定义如下：

其中表示频域特征在空间上的分布情况，它由退化频段维度得到；表示 bGAP 函数; 表示一个在张量的处的一个包含着跨频段数据的向量。

随后，空间注意力矩阵将由一个带有激活的全连接层得到：

其中和为可学习的参数；为归一化后的 2D 空间注意力矩阵。

4.1.2 频/时注意力机制

为了动态捕获不同频带、时间点中对情绪识别有辨识度的特征，我们设计了频/时注意力。以频域注意力机制为例，我们首先对输入的张量作空间全局池化（spatial-wise global average pooling, sGAP）用于退化空间维度，其过程定义如下：

其中，表示频域特征在不同频带上的分布情况，它由退化空间维度得到；表示 sGAP 函数；表示上第个频带上对应的平面。

而后，频域注意力矩阵将由一个带有激活的全连接层得到：

其中和为可学习参数；为归一化后的频域注意力矩阵。

在得到了空间注意力矩阵与频域注意力矩阵以后，频-空注意力机制被定义如下：

其中代表逐元素相乘操作。在乘积操作过程中，频域注意力与空间注意力的数值将会分别沿着空间维度与频域维度被广播。为空-频/时注意力机制的输出张量。

4.2 3D密集连接模块

为了加强特征传播、达到更好的参数效率，受到 2D DenseNet 的启发，我们设计了一种 3D 密集连接模块（3D Densely Connected Module, 3DCM）。每个 3DCM 由若干个密集连接的伪 3D 卷积组成。频-空流中的 3DCM 结构如图所示。

密集连接：3DCM 中采用了密集连接机制。对于该模块内的第层，它将前序的所有层的特征图作为输入：

其中表示进行拼接; 表示每层内进行的伪 3D 卷积。

伪 3D 卷积：传统的 3D 卷积核为，其中为卷积核在空间维度的边长、为频/空维度的长度，而传统 3D 卷积的计算开销较大。为了减少计算开销，伪 3D 卷积将传统的的 3D 卷积核分解为了等价于空域上 2D 卷积的卷积核的与时/频域上的 1D 卷积的卷积核。为了加快计算速度，我们在 3DCM 中使用伪 3D 卷积代替了传统的 3D 卷积操作。这样一来，前面的可被定义为：

其中表示伪 3D 卷积模块的输入；表示捕获空间特征的 2D 卷积；表示捕获频域或时域 EEG 特征的 1D 卷积。

4.3 过渡层

为了提高模型的紧凑性，我们采用了 DenseNet 的一个重要组成部分——过渡层。过渡层通过减少特征图的数量使模型变得紧凑。过渡层由一个 Batch Normalization 层、一个的卷积层、一个的平均池化层构成。的卷积层被用于减少特征图的数量，平均池化层用来减小特征图的大小。若一个 3DCM 包含个特征图，则跟随它的过渡层将会输出个特征图，其中被称为压缩率。

4.4 融合分类层

SST-EmotionNet 从频空流中提取脑电信号的频空特征，并从时空流中提取脑电信号的时空特征。频空流和时空流的输出被融合层所融合，从而进行高精度分类。融合层由连接层和具有激活的完全连接层组成。

实验

5.1 数据集

我们在 SEED（SJTU Emotion EEG Dataset）与 SEED-IV 数据集上评估了我们提出的模型。SEED 数据集包含来自 15 名受试者在 3 个时间段内观看的 15 个能够诱发 3 种情绪电影片段的 EEG 记录；SEED-IV 数据集则包含来自 15 名受试者在 3 个时间段内观看的 15 个能够诱发 4 种情绪电影片段的 EEG 记录。EEG 信号在 5 个频带下的差分熵特征（differential entropy, DE）被提取作为输入的频域特征。

5.2 结果

我们与 8 种 Baseline 方法进行了比较，结果如表 2 所示：

SST-EmotionNet 在两个数据集上均取得了优于所有基线方法的性能。我们推测模型分类性能提升原因有以下几点：

1. 不同于现有的方法，SST-EmotionNet 同时捕获脑电信号的空间、频率、时间特征，并利用了各种特征之间的互补性进行情绪分类；

2. 空-频/时注意力机制的引入使模型更专注于对情绪识别有辨识力的时-频-空局部模式的识别，提升了分类表现。

5.3 消融实验

为了进一步验证我们模型各个组件的有效性，我们设计了一系列消融实验。

双流消融： 我们首先将双流的模型结构消融成了单流的模型结构，实验结果如图所示：

在使用双流模型的情况下，模型的准确率能够比单独使用时-空、频-空流的模型分别高出 9.48% 与 3.51%。该结果表明利用不同特征之间的互补性能够有效提高分类准确率。

注意力机制消融： 我们对 SST-Attention 的两个子组件分别进行了消融，实验结果如图所示：

在消融各个注意力机制时，各类评价指标均有下降。如仅使用时/频注意力机制的模型比原模型的分类准确率下降了 1.94%，仅使用空间注意力机制的模型则下降了 3.30%。该实验结果表明了 SST-Attention 模块能够捕获有价值的局部特征从而提高模型的分类性能。

结论

本文提出了一种脑电情绪识别模型 SST-EmotionNet，该模型使用双流的结构同时捕获脑电信号具有互补性的空间、频率、时间三类特征；同时，设计了一种空-频/时注意力机制，使该模型能够动态关注一些对情绪识别任务较有辨识度的时-频-空局部模式。在公开的脑电情绪识别数据集 SEED 与 SEED-IV 上的实验表明，该模型有着出色的性能优于传统的基线方法。此外，该文提出的模型是一个多变量生理时间序列的通用框架，未来可以应用于睡眠分期、疲劳驾驶监测等相关领域中。

更多阅读