【导读】为了解决在图像与视频上的人-对象交互(Human-Object Interactions ,HOI)的检测与识别任务。文中引入了图解析神经网络(GPNN),迭代地计算邻接矩阵和节点标签。给定一个场景,GPNN可以推断一个解析图,包括:1)通过一个邻接矩阵表示的 HOI图结构。2)节点标签。在图像和视频的三个HOI检测基准上对的模型的评估结果表明GPNN明显优于最先进的方法,验证了GPNN可扩展到大型数据集,并适用于时空设置。
https://arxiv.org/pdf/1808.07962.pdf
动机
人与对象的交互识别方法需要超越感知的推理,整合来自人、对象及其复杂关系的信息,而现有的深度神经网络(DNNs)在HOI识别的方法相对较少,且效果不佳。因此,文中提出了提出了一个新颖的模型,图解析神经网络(GPNN)进行HOI识别,它用图来显式地表示HOI结构,并以端到端的方式自动解析最优的图结构。
贡献
这篇文章有以下三个主要的贡献:
1)文中提出了融合结构知识的GPNN和用于学习和推理的DNN。
2)GPNN通过定义一组模块化函数,通过联合执行图结构推理和消息传递来解决HOI问题。
3)GPNN提供了一种可伸缩的通用HOI表示,适用于静态和动态设置。
框架
文中提出的GPNN 主要包括四个部分 连接函数、信息传递函数、聚合函数、readout函数,信息沿着图传递,并由学习的邻接矩阵A加权 。
准备工作
给定一个包含人和对象所有可能关系的完整HOI图,CPNN的目标是通过保留有意义的边并标记节点来自动推断解析图。
节点:人、对象
边:人与对象之间的关系
图:G=(V,ε,y)表示完整的HOI图,每一个节点v都有一个标签。
连接函数
给定一个完整的HOI图G=(V,ε,y),使用d_V与d_E去表示节点特征与边特征的维度。在一个信息传递步s,首先串联所有的节点特征(隐藏状态):
以及边特征:
去生成特征矩阵:
连接函数被定义为具有一个或多个卷积层(s层)的小型神经网络(卷积核 1*1*(2d_V+d_E))以及一个sigmod激活。因此,邻接矩阵A^s可以被计算为:
其中:
W_L是可学习的参数
*是卷积操作
Sigmoid运算σ(·)用于将A^s的元素的值归一化为[0,1]
由于人与对象交互具有时间信息,因此邻接矩阵应考虑先前状态。文中采用Conv LSTM在时域中对连接函数L(·)进行建模。在时间t,连接函数以F^{s,t}作为输入特征并且先前的邻接矩阵A^{s,t-1}作为隐藏状态:
其中:
ConvLSTM中的卷积层的核大小是1×1×(2d_V+d_E)。
信息函数
在学习到的图结构的基础上,采用消息传递算法进行节点标签的推理。在信息传播过程中,节点的隐藏状态通过与其他节点的通信迭代更新。信息函数M(.)将来自其他节点的信息汇总到节点上,文中采用节点隐藏状态或边特征作为输入的线性变换的输出连接在一起来实现信息传递函数M()。
其中:
[.,.]表示串联
因此,节点v第s次迭代时的聚合信息表示为:
更新函数
更新函数U(.)根据传入信息更新隐藏节点状态,文中采用门控递归单元(GRU)作为更新函数,表示
格式 1 ( 15px, #3E3E3E )
为:
其中:
h^s_v是隐藏状态
m^s_v是输入特征
GRU比普通递归神经网络更有效
readout函数
readout函数的典型实现是组合几个全连接层(由W^R参数化),然后是激活函数:
根据HOI任务的不同,激活函数ϕ(·)可以选择softmax(一类输出)或Sigmoid(多类输出)。
实验
为了验证GPNN的有效性,文中分别再图像与视频上进行了人-对象交互检测实验。
图像上的人-对象交互检测实验
对于图像中的HOI检测,目标是检测具有交互的人和对象边界框对
数据集
HICO-Det:在47051张图像(37536个训练和9515个测试)中提供了超过150K人-对象对的注释实例,有80个对象类别和117个动作类别。
V-CoCo:由10346张图片和16199个人实例组成,大约2.5k张图片用于训练,2.8k张图片用于验证,4.9k张图片用于测试。
实验结果
在两个图像数据集上的检测准确率如下图所示,从表中可以看到,GPNN显著优于其他基准方法,因此,GPNN方法比纯神经网络具有更好的性能。
视频上的人-对象交互检测实验
视频上的人-对象交互检测实验的目的是检测和预测视频中人-对象交互过程中的人类子活动标签和对象承受力标签。
数据集
CAD数据集:为120个RGB-D视频,由4个人执行10个活动。每个活动是涉及10个动作(例如,到达、打开)和总共12个对象承受( affordances)的(例如,可到达、可打开)的子活动序列。
实验结果
下表为在视频数据集CAD上的人类活动检测与预测结果,从表中可以看到,GPNN在预测任务上的表现由于其他的模型。这可能是由于GPNN方法不像S-RNN那样依赖于预先固定的图结构,而是通过学习邻接矩阵来推断图结构,从而能够控制消息传递过程中节点之间的信息流。
总结
在这篇文章中,作者提出了图解析神经网络(GPNN)来以端到端的方式推理一个解析图。网络可以分解为四个不同的函数,即连接函数、消息函数、更新函数和readout函数,用于迭代图推理和消息传递。GPNN提供了一种既适用于空间域又适用于时空域的通用HOI表示,并且在三个HOI数据集上展示了显著的性能提升,表明了框架的有效性。
点击“阅读原文”,了解使用专知,查看5000+AI主题知识资料