基于交互感知的时空金字塔注意力机制神经网络的行为分类
【团队新作】自动化所视频内容安全团队提出一种时空金字塔注意力模型,可以不受输入特征数量的限制,兼容任意数量输入帧的时空版本,实现输入在深度卷积神经网络中各个层的不同尺度局部特征的交互感知和时空特征融合的功能,可以对视频中关键的行为进行精确定位。经过评测,取得了领先的结果。
深度卷积神经网络中,特征图里相邻空间位置的局部通道特征,往往由于它们的感受野重叠而具有很高的相关性。自注意机制模型通常利用每个局部特征的内部元素来使用加权和(或其他函数)来获得其权重得分,此权重用于加权所有的局部特征获取关键特征。但是此权重的计算没有考虑局部特征之间的相互作用,尽管它们具有很高的相关性。
PCA可以提取全局特征主要纬度的主成分信息,而这些主成分信息可以看作是提取的局部特征,而最后降维后的全局特征即是关键局部特征的集合。注意机制的目的是从局部特征集合中提取关键的局部特征,而这些局部特征也就是和上述对PCA描述中的局部特征,不同的是注意力机制使用每个局部特征对应的加权得分来计算最终的全局特征。PCA可以通过利用协方差矩阵来获得降维(或加权权重)的基向量,从而减少特征间的信息冗余和噪声。
因此,我们自然地使用PCA来指导我们的注意力模型,并通过将PCA算法转换成损失设计实现。此外,由于深度网络中的不同层可以捕获不同尺度的特征图,我们使用这些特征图来构造空间金字塔,利用多尺度信息来计算每个局部通道特征更精确的注意力分数,这些权重得分用于在所有空间位置中对局部特征进行加权。最后,我们提出的空间金字塔注意力模型可以不受其输入特征图数量的限制。因此,它很容易扩展到一个可以兼容任意数量的输入帧的时空版本。相关成果已被ECCV2018接收。
首先,我们定义了一个新的交互感知时空金字塔注意力层,来实现输入在深度卷积神经网络中各个层的不同尺度局部特征的交互感知和时空特征融合的功能。我们首先定义了一个下采样函数R, 将不同层的特征图统一到一个尺度。
接下来,我们对不同尺度的特征图的局部通道特征使用注意力机制进行关键特征提取,
通过使用融合函数对不同尺度的特征进行融合,并计算每个局部特征的注意力得分,用于加权特征。
在主成分分析(PCA)中,PCA使用协方差矩阵计算投影向量,进行降维,也就是提取关键的局部特征,其原理如下表示:
我们将其转化损失函数的设计加入到最终的模型中:
同时,我们对提出的空间金字塔注意力模型进行约束,使其不同尺度层的特征图尽量关注到不同的信息:
加入分类损失,最终的损失函数如下:
最后,我们提出的模型参数与输入特征图的数目无关,因此,自然地将其拓展到视频级端到端训练的时空网络,最终的网络结构如下:
我们在国际公开数据库UCF101,HMDB51和无裁剪行为数据库Charades上进行了评测,取得了领先的结果:
接下来,我们对视频时空输入进行了评测,显示出我们的模型能够同时处理任意数量的视频帧输入,并取得好的实验结果。
最后,我们对视频进行了可视化研究,显示出我们的模型可以对视频中关键的行为进行精确定位。
论文信息
Interaction-aware Spatio-temporal Pyramid Attention Networks for Action Classification
Yang Du, Chunfeng Yuan*, Bing Li, Lili Zhao, Yangxi Li, Weiming Hu
本文转载自中科院自动化研究所
-END-
专 · 知
人工智能领域主题知识资料查看与加入专知人工智能服务群:
【专知AI服务计划】专知AI知识技术服务会员群加入与人工智能领域26个主题知识资料全集获取。欢迎微信扫一扫加入专知人工智能知识星球群,获取专业知识教程视频资料和与专家交流咨询!
请PC登录www.zhuanzhi.ai或者点击阅读原文,注册登录专知,获取更多AI知识资料!
请加专知小助手微信(扫一扫如下二维码添加),加入专知主题群(请备注主题类型:AI、NLP、CV、 KG等)交流~
请关注专知公众号,获取人工智能的专业知识!
点击“阅读原文”,使用专知