ECCV 2018 | 建模任务相关注视点转移，实现第一人称视频注视点的准确估计

2018 年 9 月 4 日 机器之心

机器之心发布

作者：Yifei Huang（黄逸飞）、Minjie Cai（蔡敏捷）、Zhenqiang Li（李振强）、Yoichi Sato（佐藤洋一）

准确估计第一人称视频中人的注视点能够帮助计算机更好地预测人的关注区域，对于计算机自动理解人的动作和人与人之间的交互行为具有重要意义。近日，来自东京大学和湖南大学的研究者们提出了一个全新的视角和方法对这一问题进行建模，新的方法在第一人称视频的注视点估计任务上大大超出了已有方法的性能。目前这项研究工作已被全球计算机视觉三大顶会之一的欧洲计算机视觉大会 (ECCV 2018) 收录，并被邀请赴会进行口头报告 (Oral Presentation)。

论文：Predicting gaze in egocentric videos by learning task-dependent attention transition

论文链接：https://arxiv.org/abs/1803.09125
项目主页：https://cai-mj.github.io/project/egocentric_gaze_prediction
论文代码：https://github.com/hyf015/egocentric-gaze-prediction

背景

近年来，随着便携式相机在记录人们日常生活体验（lifelogging）等方面的普及，基于第一人称视角拍摄的视频开始大量出现，而以自动分析理解第一人称视频为主要任务的第一人称视觉逐渐得到研究者们的关注，成为计算机视觉领域的热点方向之一。在第一人称视频中，注视点（gaze）被定义为人眼视线聚焦的区域，注视点及其周边区域包含了与相机穿戴者相交互的物体或该穿戴者的意图相关的重要信息，因此，对第一人称视频注视点的自动预测（gaze prediction）能够让计算机重点关注视频中与分析理解人的动作和意图最相关的重要区域，减少第一人称视觉的各种学习和推断任务所需的计算量，提高视觉模型的建模效率。本文致力于提出一个有效的方法来实现对第一人称视频注视点的准确估计。

传统方法通常将这一问题构建成一个视觉显著性（visual saliency）的估计问题，通过自下而上（bottom-up）的方法框架从输入图像或视频中提取自定义的（例如手的位置）或可学习的视觉特征（例如卷积神经网络），并进而训练一个视觉模型来预测显著性最高的区域作为肯能的注视点。但是，基于视觉显著性的方法并不能有效地预测第一人称视频的注视点，尤其是在包含复杂的日常动作的视频中，任务相关的高层知识对于人的注视点转移有重要的影响，而基于视觉显著性的模型并不能对来自顶端的任务知识进行建模。

核心思想

在日常生活场景中，为了完成某个复杂的物体交互任务，例如泡茶，人们会通过一系列的视线聚焦来注视与任务相关的多个物体并导引交互动作的完成。论文的作者们发现，在完成任务的过程中，人们的注视点并不会一直停留在视野中显著的区域，而是会根据自己正在进行的任务来改变所注视的物体，且注视点的转移与正在执行的任务密切相关。论文第一作者来自东京大学的博士生黄逸飞这样介绍说「正在进行的任务信息对人的注视点的转移有着很重要的影响，举例来说，在将水从瓶子倒入杯子的过程中，人们通常会先注视即将抓取的瓶子，然后在抓起瓶子后将注视点转移到杯口来导引接下来的倒水动作。」

基于对人在完成物体交互任务过程中的视线聚焦行为的观察和发现，此论文提出了一个递归神经网络来对注视点在时间上的转移过程进行建模。值得注意的是，论文所建模的注视点转移并不是单纯的二维图像位置的转移，而是注视点所对应区域的语义信息的转移。考虑到基于图像/视频的视觉显著性模型和基于任务的注视点转移模型在建模方法上具有互补性，论文最后提出了一个混合型的网络架构（细节如下一节所述）将互补的两个模型统一起来，注视点预测性能相比现有的方法取得了显著的提升。

方法架构

图 1：论文提出的注视点预测模型的网络架构

论文提出的注视点预测模型融合了自下而上的基于图像/视频的视觉信息和自上而下的基于任务的高层信息，方法架构如图 1 所示。首先，由于人的注视点通常是向着视野中的显著区域，本文提出的模型首先基于一个自下而上的显著性预测模块（Saliency Prediction Module，SP）。以第一人称视频作为输入，作者采取了 Two stream encoder decoder 的全卷积网络结构，两个 stream 的输入分别为 rgb 图像和光流图像，输出是包含各个图像位置的显著性的热图（heatmap），并使用基于眼部跟踪设备的测量值生成的 heatmap 作为网络训练时的真值（ground truth）。

在人与物体的日常交互活动中，人们并不会一直关注视野中显著的区域，而是会根据自己正在进行的任务来调整关注的物体。因此，作为 SP 模块的补充，作者提出了注意转移模块（Attention Transition Module，AT）来对关注物体在时间上的转移过程进行建模，训练时使用一系列视线聚焦时刻（gaze fixation）的注视点作为训练数据。

最后，作者使用了一个 Late Fusion（LF）模块来融合 SP 和 AT 的结果。LF 模块由一个小型的卷积网络组成，它的输出将作为整个注视点预测模型的最终结果。

注意转移模块（AT）架构

图 2：注意转移模块的网络架构

论文的核心部分-AT 模块如图 2 所示。为了表示注视点所关注的物体的语义信息，一种直接的方式就是找到物体的分类，并学习不同物体分类之间的时间转移关系。但是这种方式需要一个可靠的物体检测和定位方法，由于有限的数据量，目前在第一人称视频的数据集中并没有这样可靠的物体检测和定位方法。为了解决这个问题，作者利用了在深层卷积网络中比较深的卷积层中每一个 channel 都包含了高级语义信息（比如物体分类）这样的一个现象，利用给各个 channel 不同的权重来表示注视点所包含的语义信息。具体而言，AT 模块首先从 SP 模块的 encoder 中提取最后一个卷积层的特征图（feature map），然后根据注视点所在图像的位置截取特征图中的 RoI 区域（Region of Interest），并进行池化（Pooling）操作，得到一个表示卷积层不同 channel 权重的向量用于表示当前的注视点。根据一系列注视点的表示向量，论文训练了一个 LSTM 网络，用于根据当前注视点的表示向量预测下一个时刻的注视点的表示向量。使用 LSTM 的预测向量和下一时刻的特征图进行加权平均，即可得到与所进行的任务相关的下一时刻注视点的预测位置。

实验

实验数据集：

本文使用了两个公开的第一人称视觉数据集：GTEA Gaze 和 GTEA Gaze Plus，来评价所提出的注视点预测模型的性能，并使用 AAE (Average Angle Error) 和 AUC (Area under Curve) 两种评价标准。同时，为了检验模型的注意转移学习能力，本文从 GTEA Gaze Plus 中选取并标注了部分数据（简记为 GTEA-sub）来测试模型是否能够正确的预测注意力的转移。

不同方法的性能比较：

表 1 与不同参照方法在两个公开数据集上的定量比较。本文所采用的方法得到了最高的 AAE 和最小的 AUC，也即意味着最好的注视点预测结果。

不同模块的有效性检验：

表 2 模型的不同模块在数据集上的表现比较。S-CNN bce 和 T-CNN bce：二元交叉熵（bce）损失函数训练得到的单一 Stream 显著性预测模块；S-CNN 和 T-CNN：作者改进的 bce 损失函数训练得到的单一 Stream 显著性预测模块；SP bce：bce 损失函数训练得到的双 Stream 显著性预测模块；SP：作者改进的 bce 损失函数训练得到的双 Stream 显著性预测模块；AT：注意转移模块。

注视点预测结果的可视化：

本文提出模型预测得到的注视点的可视化。作者分别展示了显著性预测模块、注意转移模块和完整模型的四组输出 heatmap。每组包含的两张图片分别来自两次连续的注视，其中 a 发生在 b 之前。Ground truth 的 heatmap 通过在注视点坐标周围卷积高斯滤波器得到。由这一可视化结果可以观察到，本文提出的完整模型拥有最接近 ground truth 的预测结果。

交叉任务检验：

交叉任务检验的定量结果比较。为了检验模型在同一场景的不同任务下的泛化性，本文在 GTEA Gaze Plus 中 7 种不同的食材准备任务下进行了交叉检验，并测试了几种不同实验设定下的注视点转移结果。SP：显著性预测模块的结果，由于注视点转移模块在不同任务下不具有差别，所以被视为一个通用模块，并在一个单独的子集下进行训练，其结果被视作交叉任务检验结果的基准。AT_d：在不同任务下进行训练和测试的注意转移模块的结果。AT_s：在同一任务的两个不同划分下进行训练和测试的注意转移模块的结果。SP+AT_d 和 SP+AT_s：SP 和 AT_d 以及 AT_s 通过 Late Fusion 进行合并之后的结果。

注意转移模块预测性能的可视化：

注意转移模块在 GTEA-sub 中部分帧下的定性结果可视化。每张图中都包含了当前帧的注视点（红色十字表示）、基于当前帧模型预测的注视点的 heatmap、注视的基准区域/物体（由黄色矩形框出）。

结论

本文提出了一个能够准确预测第一人称视频中的注视点的新方法。作者创新性地提出了一个注意转移模型，该模型通过挖掘视频中注视点的上下文时序信息，来对人在完成特定任务时所关注的物体的时序关系进行建模。通过将这一注意转移模型与一个自下而上的视觉显著性模型进行结合，论文新提出的方法在两个公开的数据集上都取得了最佳的预测性能。值得一提的是，本文提出的注意转移模型不但显著提高了注视点预测的性能，背后的思想对于未来研究如何提高计算机对于复杂任务中人类行为的理解能力具有重要的启示意义。

参考文献

Li, Y., Fathi, A., Rehg, J.M.: Learning to predict gaze in egocentric video. In:ICCV (2013)
Zhang, M., Teck Ma, K., Hwee Lim, J., Zhao, Q., Feng, J.: Deep future gaze: Gaze anticipation on egocentric videos using adversarial networks. In: CVPR (2017)
Zhou, B., Khosla, A., Lapedriza, A., Oliva, A., Torralba, A.: Learning deep features for discriminative localization. In: CVPR (2016)

本文为机器之心发布，转载请联系本公众号获得授权。

✄------------------------------------------------

加入机器之心（全职记者 / 实习生）：hr@jiqizhixin.com

投稿或寻求报道：content@jiqizhixin.com

广告 & 商务合作：bd@jiqizhixin.com

登录查看更多