告诉我我在哪？——目标级别的场景上下文预测（文末附有原文）

2019 年 8 月 2 日 计算机视觉战队

计算机视觉领域，利用局部特征、全局特征、深度特征以及上下文特征已经是大家习以为常的操作，尤其是前三种特征的使用，近期对上下文及显著性特征关注较多，今天和大家分享的一个技术，其也是利用了目标所在场景的上下文特征，更精确去得到目标的位置。

【导读】

上下文信息在帮助解决各种图像理解任务方面已经被证明是有效的。以前的工作集中在从图像中提取上下文信息，并利用它来推断图像中某些对象的属性。今天我们分享的，其考虑了一个逆问题，即如何从几个独立对象的属性中产生缺失的上下文信息，我们称之为 场景上下文预测 。

这个问题很难解决，因为它需要对自然场景中不同对象之间复杂多样的关系有广泛的了解。于是提出了一种卷积神经网络，它以几个独立对象的属性（即类别、形状和位置）作为输入，预测对象级场景布局，对给定对象所在的场景上下文的语义和结构进行严密编码。

最终定量实验和用户研究表明，与基线方法相比，新提出的模型能够生成更可信的场景上下文。最后还演示了新模型允许从部分场景布局中合成真实场景图像，并在内部学习用于场景识别的有用特征。

背景介绍

场景上下文是指感兴趣的对象与周围环境的关系。语境信息在现代计算机视觉系统中起着重要的作用。最近的工作利用场景上下文来改进目标检测、识别和分割：

[1] H. Hu, J. Gu, Z. Zhang, J. Dai, and Y. Wei. Relation networks for object detection. In CVPR, 2018.
[2] Y. Liu, R. Wang, S. Shan, and X. Chen. Structure inference net: Object detection using scene-level context and instancelevel relationships. In CVPR, 2018.
[3] D. Pathak, P. Krahenbuhl, J. Donahue, T. Darrell, and A. A.Efros. Context encoders: Feature learning by inpainting. In CVPR, 2016.

先前的工作试图利用图像中存在的上下文信息来推断图像中某些感兴趣的对象的属性。然而，一个未探索的问题是预测图像中某些对象的未知上下文(即，预测丢失对象的内容和位置)。考虑到几个前景物体，人类凭借对视觉世界的广泛的常识知识，能够很好地推断出他们未知的整个场景背景。例如，给出相框中的前景对象(如下图所示)，我们可以推断出围绕它的多个可信环境。给定对象的属性提供了有关场景环境的强烈提示，以及其他对象可能出现在场景中的内容和位置。

因此，作者对机器是否能够复制这样的场景上下文推理能力这一基本问题感兴趣。相信机器预测物体在哪里的能力可以帮助很多场景的生成和识别任务。然而，由于自然场景中包含着丰富的语义对象，它们之间具有复杂的空间关系，因此开发场景上下文预测模型具有一定的挑战性。对象可以位于不同的位置，具有不同的尺度和形状。此外，这个问题本质上是模棱两可的，因为相同的对象可能有多个语义上合理的场景上下文。

相关工作

Modeling scene context

图像的上下文包含关于对象和场景彼此相关的丰富信息。认知科学研究显示出了背景信息在人类中起着至关重要的作用，尤其在视觉识别领域。有许多类型的上下文信息，包括：

可视上下文[N. Dvornik, J. Mairal, and C. Schmid. Modeling visual context is key to augmenting object detection datasets. In ECCV,2018.]，全局场景上下文[A. Torralba, K. Murphy, and W. Freeman. Using the forest to see the trees: Object recognition in context. Comm. of the ACM, 2010.]、相对位置[C. Desai, D. Ramanan, and C. C. Fowlkes. Discriminative models for multi-class object layout. IJCV, 95(1):1–12, 2011.]和布局[A. G. Schwing, S. Fidler, M. Pollefeys, and R. Urtasun. Box in the box: Joint 3d layout and object reasoning from single images. In ICCV, 2013. ]。

随着深度学习，许多任务现在正在开发上下文信息，以学习视觉特征并提高视觉理解性能。一方面，语境对于特征学习是必不可少的。例如，Pathaketal提出了一种用于学习高级的上下文编码器，图像在绘画中的语义特征。另一方面，已经证明上下文在许多视觉任务中是有效的，例如识别、检测和分割。还可以组合多个上下文以提高性能。Choi等人就提出了一种利用多个上下文的图形模型来识别场景中的非上下文对象.。Izadia等对场景类别进行编码，对象的上下文特定外观及其布局学习场景结构。Chien等人建立了一个ConvNet，预测行人在某一位置的概率图像中的位置。Wang等使用了变分法自动编码器显示场景中存在合理不存在的人体姿态的可能性。所有这些作品都使用图像的现有上下文作为原因的附加提示关于感兴趣的前景对象的属性。

今天分享的目标与以前的工作有根本的不同。从概念上讲，在给定的前景对象中，试图解决一个逆问题，即从属性推断缺少的场景上下文。

Unsupervised representation learning via context prediction

在无人监督的情况下已经做出了一些努力通过上下文预测学习视觉表示。所需的Skip-gram模型通过预测单个单词的周围单词来学习单词表示。Doersch等人通过预测图像中的面片的相对位置来学习图像表示(即空间上下文)。Vonrick等人获悉在未标记视频的将来帧(即时间上下文)中预测视觉表示。

在新技术的工作中，最终目标不是视觉表示学习，是对一些独立对象的周围环境的预测。

Context-based image manipulation

许多作品研究了如何在图像处理任务中使用上下文。有些作品使用上下文作为先前检索和组合资产的前提。Tan等人利用CNN捕捉个人构成的背景。通过联合编码前景对象和背景场景的上下文，赵等学习了基于给定背景图像的兼容前景对象检索的特征表示。然而，生成的图像的质量取决于检索数据库。检索到的资产可能无法满足用户的要求并产生不现实的组合。其他作品将语境表示为场景布局，并学习了生成网络来操纵合成图像。

这些方法的一个主要缺点是它们需要完整的语义布局或文本描述作为输入。我们的场景上下文预测模型只需要用户提供包含少量对象的部分语义布局，我们的方法就可以生成各种可能的场景布局，用于合成真实的全场景图像。因此，我们的模型可以被认为是对现有图像合成方法的补充。

新模型

目标是开发一个深度神经网络，它以一个或多个独立对象的属性作为输入，生成对象周围的场景上下文，其中包含可能与给定对象同时发生的其他对象。如下图所示，使用对象级语义布局对输入对象和预测场景上下文进行编码，该语义布局可以简洁地描述场景布局中对象的类、形状和位置。

Training

由于上下文预测的复杂性，很难直接对新模型端到端进行训练。因此，首先对类别分类器进行预训练，以获得对象嵌入特征。然后一起训练所有的模块。

对于区域生成器，定义如下：

由于大多数生成的边界框不覆盖任何ground truth对象，所以引入了类重新平衡函数λ(x)，以防止模型预测大多数边界框的零置信度分数。当λ(x)=1时，x=1，当λ(x)=0时，x=0.1。

对于形状发生器：

对于形状判别器：

实验结果

新模型和基线的定性结果。给定输入对象布局(每列中的左图)，其中包含一个或两个独立对象，使用新模型(每列的中间图)和基线(每列中的右图)生成输出场景布局。

Quantitative Evaluation

我们利用对象成对关系Priors对生成的场景布局的合理性进行了定量的评价，并在室内场景合成中得到了广泛的应用。特别地，从自然场景图像的数据集计算对象类之间的成对关系的概率，并评估每个生成的场景布局在度量其质量的概率下的可能性。

上表比较了新模型与基线的性能。在这两个指标中，新方法都比基线好得多。这再次证实了与基线相比，新方法在预测可信和合适的场景上下文方面具有优越的性能。

在上图，展示了部分语义布局和草图产生的一些图像合成结果。可以看出，新方法可以从稀疏的用户输入中合成复杂的、语义上有意义的全场景图像。

推荐阅读：在后台发送相应的获取码就可以获得！

关注“计算机视觉战队”公众号，回复文章获取码，即可获得全文链接。

[1] 人脸检测与识别的趋势和分析【获取码】0723

[2] 人脸实践篇 | 基于Caffe的年龄&性别识别【获取码】08

[3] 人脸识别 | 基于深度学习以人类为中心的图像理解【获取码】24

[4] 人脸专集1 | 级联卷积神经网络用于人脸检测（文末福利）【获取码】03

[5] 人脸专集2 | 人脸关键点检测汇总（文末有相关文章链接）【获取码】23

[6] 人脸专集3 | 人脸关键点检测（下）—文末源码【获取码】10

[7] 人脸专集4 | 遮挡、光照等因素的人脸关键点检测【获取码】01

[8] 人脸专集5 | 最新的图像质量评价【获取码】1021

[9] 加入我们，一起学习深度学习（目标人脸检测识别）【获取码】0

如果想加入我们“计算机视觉战队”，请扫二维码加入学习群。计算机视觉战队主要涉及机器学习、深度学习等领域，由来自于各校的硕博研究生组成的团队，主要致力于人脸检测、人脸识别，多目标检测、目标跟踪、图像分割等研究方向。

我们开创一段时间的“计算机视觉协会”知识星球，也得到很多同学的认可，我们定时会推送实践型内容与大家分享，在星球里的同学可以随时提问，随时提需求，我们都会及时给予回复及给出对应的答复。

微信学习讨论群，我们会第一时间在该些群里预告！

论文源码地址：

http://openaccess.thecvf.com/content_CVPR_2019/html/Qiao_Tell_Me_Where_I_Am_Object-Level_Scene_Context_Prediction_CVPR_2019_paper.html

登录查看更多

相关内容

上下文预测

关注 0

【斯坦福大学博士论文】自监督场景表示学习， 97页pdf

专知会员服务

96+阅读 · 2020年6月19日

近期必读的5篇顶会CVPR 2020【场景图+图神经网络（SG+GNN）】相关论文

专知会员服务

51+阅读 · 2020年5月12日

【CVPR2020-中科院计算所】弱监督语义分割的自监督等价注意力机制，Self-supervised Equivariant Attention Mechanism for Weakly Supervised Semantic Segmentation

专知会员服务

76+阅读 · 2020年4月10日

【厦门大学-CVPR2020】协调可迁移性与可判别性的自适应目标检测器，Adapting Object Detectors

专知会员服务

26+阅读 · 2020年3月16日

如何构建多模态BERT? 这份UNC76页《LXMERT: 从Transformer学习跨模态编码表示》PPT告诉您，附论文代码

专知会员服务

85+阅读 · 2020年2月27日

近期必读的8篇 AAAI 2020【图神经网络（GNN）】相关论文

专知会员服务

77+阅读 · 2020年1月15日

斯坦福大学李飞飞组发布Action Genome:一种新的表达形式，新的数据集，以及将动作分解成时空场景图的新模型

专知会员服务

40+阅读 · 2020年1月12日

必读的10篇 CVPR 2019【生成对抗网络】相关论文和代码

专知会员服务

33+阅读 · 2020年1月10日

近期必读的5篇 CVPR 2019【图卷积网络】相关论文和代码

专知会员服务

33+阅读 · 2020年1月10日

【斯坦福大学】场景图谱表示在计算机视觉中的应用，41页ppt

专知会员服务

52+阅读 · 2020年1月8日

CVPR 2020 | 深度视觉推理2.0：组合式目标指代理解

AI科技评论

15+阅读 · 2020年3月20日

基于上下文信息分离的无监督运动目标检测（文末附有论文及源码下载）

计算机视觉战队

5+阅读 · 2019年7月4日

【泡泡点云时空】联合分割点云中的实例和语义

泡泡机器人SLAM

7+阅读 · 2019年4月27日

全景分割任务介绍及其最新进展【附PPT与视频资料】

人工智能前沿讲习班

11+阅读 · 2018年12月5日

【泡泡点云时空】3DMV:联合三维多视图预测的三维语义场景分割(ECCV2018-7)

泡泡机器人SLAM

9+阅读 · 2018年10月16日

【泡泡一分钟】SegFlow：视频目标分割和光流的联合学习(ICCV2017-67)

泡泡机器人SLAM

9+阅读 · 2018年8月15日

【泡泡点云时空】利用超点图的大场景点云语义分割(CVPR2018-5)

泡泡机器人SLAM

30+阅读 · 2018年8月14日

【泡泡一分钟】基于场景流传播的动态街道场景的语义建图和目标检测

泡泡机器人SLAM

9+阅读 · 2018年4月29日

CVPR 2018 | Spotlight论文：变分U-Net，可按条件独立变换目标的外观和形状

极市平台

6+阅读 · 2018年4月24日

程明明：面向弱监督的图像理解

深度学习大讲堂

6+阅读 · 2018年1月2日

MHSAN: Multi-Head Self-Attention Network for Visual Semantic Embedding

Arxiv

4+阅读 · 2020年1月11日

Activitynet 2019 Task 3: Exploring Contexts for Dense Captioning Events in Videos

Arxiv

3+阅读 · 2019年7月11日

Learning to Propagate Labels: Transductive Propagation Network for Few-shot Learning

Arxiv

7+阅读 · 2019年2月8日

Visual Semantic Navigation using Scene Priors

Arxiv

5+阅读 · 2018年10月15日

Panoptic Segmentation with a Joint Semantic and Instance Segmentation Network

Arxiv

5+阅读 · 2018年9月6日

Probabilistic Embedding of Knowledge Graphs with Box Lattice Measures

Arxiv

6+阅读 · 2018年5月17日

Improved Image Captioning with Adversarial Semantic Alignment

Arxiv

6+阅读 · 2018年4月30日

Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation

Arxiv

8+阅读 · 2018年2月7日

Mask R-CNN

Arxiv

7+阅读 · 2018年1月24日

A Unified approach for Conventional Zero-shot, Generalized Zero-shot and Few-shot Learning

Arxiv

4+阅读 · 2017年10月26日

VIP会员