MM'21 | 基于图卷积网络的视频人物社交关系图生成方法

2021 年 9 月 15 日 图与推荐

引言

视频中人物的社交关系是视频理解的重要基础之一，它既可以帮助观众更好地理解视频内涵，也将支撑许多视频相关的应用，如视频标注、视频检索和视觉问答等。传统的方法主要分析可由视觉内容直接体现的空间或动作关系等，很少涉及到更高层的语义信息，如视频中人物社交关系图的生成。与此同时，现有的视频分析工作主要针对人工剪裁的富含语义的图片或短视频，但是在现实场景的长视频中，往往却包含着大量与人物关系无关的信息，不仅场景和人物频繁切换，社交关系的呈现方式也更为复杂。

先前，我们曾经讨论过视频人物对的关系识别问题（详见“让视频讲点儿“社交”：基于多模态协同表征的视频人物社交关系识别”一文）。然而众所周知，人物关系事实上并不是相互独立的，而是彼此关联并形成完整的社交关系网络的，而网络中的关系往往通过“三元闭包”关系而存在着相互佐证、相互强化的作用，但现有技术并没有充分利用这一信息。，因此往往难以取得令人满意的效果。

为此，我们提出基于图卷积网络的视频人物社交关系图生成方法，具体来说，我们首先整合了短期的多模态线索，包括视觉、文本和音频信息，通过图卷积技术为人物生成帧级子图。在处理视频级的聚合任务时，我们设计了一个端到端的框架，沿着时间轨迹聚合所有的帧级子图，形成一个全局的视频级人物社交关系图，其中包括多角色之间的各种社交关系。

图1 视频社交关系图示例

本文工作由中国科学技术大学、优酷和京东硅谷研究中心三方联合完成。相关成果已被中国计算机学会推荐A类国际会议ACM MM 2021录用，论文信息如下：

论文标题：

Linking the Characters: Video-oriented Social Graph Generation via Hierarchical-cumulative GCN

论文作者：

Shiwei Wu, Joya Chen, Tong Xu, Liyi Chen, Lingfei Wu, Yao Hu, Enhong Chen

技术细节

2.1 问题描述

给定视频集 $M$ 以及文本和背景音频信息，以及预先定义的人物社交关系标签集 $R$ 和预先注释的人物出现时间 $O$ ，我们的目标是为视频中的目标人物生成社交关系图 $SG$ 。

2.2 模型整体框架

图2 模型整体框架

我们提出的人物社交关系图生成模型主要包括：帧级别的图卷积网络模块、多通道时序累积模块以及片段级别的图卷积网络模块。

2.3 帧级别的图卷积网络模块

在帧级别的图卷积网络模块中，目标是生成一个帧级别的子图，用来提供当前帧的人物社交关系图。主要过程如下：

首先，检测定位和重识别视频中的所有人物，我们使用人物角色框和联合框的视觉特征分别作为人物和人物对的表征。具体而言，采用预训练的残差网络从人物角色框和联合框的视觉特征中分别提取人物角色特征 $F_c$ 和人物对特征 $F_p$ 。为了得到当前帧的全局背景特征 $F_b$ ，将当前帧图像放入预训练所得的残差网络，提取到的全局背景特征 $F_b$ 包含丰富的场景信息。此外，还利用深度自注意力变换网络来从当前时刻的台词中提取文本特征 $F_t$ ，上述四种不同的特征分别构成当前子图上的四种节点。

其次，使用图卷积神经网络来相互传播节点的信息，从而在帧级别的子图上丰富人物和人物对之间的表征，单层的图卷积层的操作表示为：

其中， $X^l\in \mathbb R^{N\times d}$ 是第 $l-1$ 层的输出， $N$ 表示子图中节点数目， $d$ 表示特征节点的维度； $\widetilde A\in \mathbb R^{N\times N}$ 是当前子图的邻接矩阵， $\widetilde D\in \mathbb R^{N\times N}$ 是邻接矩阵 $\widetilde A$ 的度矩阵， $W^l\in \mathbb R^{d\times d^{\prime}}$ 是可学习的参数， $\sigma(.)$ 是非线性激活函数；

子图的邻接矩阵定义为：

其中 $F_c$ 、 $F_p$ 、 $F_b$ 、 $F_t$ 依次表示每一帧图像中人物角色特征、人物对特征、全局背景特征、文本特征； $i$ 、 $j$ 表示不同人物角色， $F_c^i$ 、 $F_c^j$ 表示人物角色 $i$ 、人物角色 $j$ 的特征， $F_p^{ij}$ 表示两个不同人物对的特征。

最终，结合多视角的视觉特征 $F_c$ ， $F_p$ ， $F_b$ 和文本特征 $F_t$ ，通过图卷积神经网络，来获得每一帧图像中人物角色和人物对的增强表征表示：

其中 $GCN(.)$ 表示图卷积神经网络。

2.4 多通道时序累积模块

对于每个人物特征 $F_c$ 和人物对特征 $F_p$ ，可以使用长短时记忆网络来捕捉它们在时间轴上所有帧的时间动态。具体来说，由于角色特征和角色对特征之间的表示方式不同，可以采用两个独立的长短时记忆网络来传播一系列的特征。将人物特征和人物对的特征分别放入多路长短时记忆网络后，能够得到子视频帧序列中所有帧的累积特征 $C_c$ 和 $C_p$ 。我们将每个长短时记忆网络的最后一步输出的 $C_c$ 和 $C_p$ 作为片段级别的图卷积网络模块的输入。

2.5 片段级别的图卷积网络模块

为了描述单个子视频帧序列（片段） $V$ 中的所有人物，并生成片段级别的人物社交关系图 $SG_v$ ，通过多通道时序累积模块合并所有子图，以累积的人物特征 $C_c$ 和累积的人物对特征 $C_p$ 作为片段级别的人物社交关系图 $SG_v$ 的输入。

值得注意的是，片段级别的人物社交关系图 $SG_v$ 中的人物特征 $C_c$ 和人物对特征 $C_p$ 不仅包含帧级别的子图中的多视角和多模态信息，而且由于多通道时序累积模块，还能捕捉到时间维度上的变化。我们利用图卷积网络得到片段级别的增强表征后的人物对特征，表示为：

其中 $A$ 为邻接矩阵，定义为：

其中 $i$ 、 $j$ 表示不同人物角色， $C_c^i$ 、 $C_c^j$ 表示累积的人物角色 $i$ 、人物角色 $j$ 的特征， $C_p^{ij}$ 表示累积的两个人物对的特征。

2.6 基于弱监督学习的训练和测试方案。

对于一个视频来说，很难获得每一帧的人物级别标注。在这种情况下，我们应该只利用片段级别的社交关系标注来预测人物对的社交关系。为此，我们提出一个弱监督损失函数来解决这个具有挑战性的任务。

将片段级别的增强表征后的人物对特征输入至分类器，预测得到相应人物对在每个社交关系类别上的置信度向量，将所有人物对的置信度向量拼接起来组成分数矩阵Q；假设具有K对社交关系分数，R种社交关系以及P对人物，预测得到的分数矩阵Q形状为 $R\times P$ ，对分数矩阵Q进行交叉 $softmax$ 操作，生成置信度矩阵：

其中， $softmax_r$ 和 $softmax_p$ 分别表示对所有人物对和所有社交关系的 $softmax$ 运算。

上式能够评估每个人物对关于每种社交关系的贡献。之后，可以累积每个人物对的置信度分数，用交叉熵准则来计算弱监督损失函数：

其中， $y_r = 1$ 表示视频具有 $r$ 类型的社交关系，否则 $y_r = 0$ ； $\begin{equation*} \sum_{i,j}^{}s_r^{i,j} \end{equation*}$ 表示所有人物对在 $r$ 类型社交关系上累计的归一化分数，能够代表 $r$ 类型的片段级置信度分数；通过上述损失 $L$ ，能够仅利用片段级的社交关系标注来训练网络。

如上述介绍，在训练阶段，我们利用片段级别的增强表征后的人物对特征 $C_p^{\prime}$ 来训练人物社交关系图生成模型，直至模型收敛。

在推理阶段，通过之前介绍的方式，得到片段级别的增强表征后的人物对特征 $C_p^{\prime}$ 之后，将每个人物对的特征 $C_p^{\prime}$ 与整个子视频帧序列的视频特征、音频特征与相应的文本特征拼接起来作为人物对的最终表征，再输入至分类器进行人物对的社交关系分类，得到了所有人物对之间的关系，从而得到片段级人物社交关系图。

为了得到全局的人物社交关系图 $SG_m$ ，合并了来自同一视频的所有片段级社交关系图 $SG_{v_1},SG_{v_2},...,SG_{v_n}$ 来生成 $SG_m$ 。合并策略是基于人物特征的相似性，对于来自不同片段级社交关系图的两个人物，如果他们的特征余弦相似度大于阈值（例如0.7），则认为这两个人物是相同的。经过以上过程，可以将两个图中的社交关系合并为一个更大的人物社交关系图。通过迭代合并每两个图，最终可以得到整个视频的人物社交关系图。

实验

3.1 数据集

在数据方面，我们从BiliBili视频网站获取了70部电影，平均时长约1.9小时，我们选择了电影中的376个主要人物，进行了社交关系的标注。同时，还在基于视频的社交关系研究中常用的ViSR数据集上进行了实验。

3.2 实验结果

在自建的BiliBili电影数据集上，我们计算五分类的Recall、Precision和F1值来评估模型；在ViSR数据集上，根据每个社交关系的Top-1 Accuracy和整体的mAP来衡量模型的性能，整体实验结果如下表所示。可以发现，基于时序建模的模型（TSN-ST，MSTR，HC-GCN）结果显然好于基于图片的模型（GRM，DSC，MSFM，TEFM），这说明视频中人物社交关系的识别在很大程度上取决于时序信息。同时，我们的模型综合考虑了多种模态的信息，取得了比仅依赖视觉信息的模型更好的效果。

从实验结果中可以发现，我们的模型在敌对关系类别的Top1-准确率指标上并没有明显优势，这可能是因为敌对关系中的角色在电影中没有太多的互动和交流，从而影响了模型性能。相反，我们的方法在亲密的关系中表现得很好，例如，Colleague，Service，Parent-offs，Sibling，Couple和Friend。此外，我们在ViSR数据集上的实验混淆矩阵表明，模型可能会在亲密关系（如Friend、Sibling和Couple）之间判断出错。这是因为属于这些社交关系的角色在他们的活动和对话中往往有相似之处。