13篇京东CVPR 2019论文！你值得一读（目标检测/语义分割/活体检测等）

2019 年 4 月 9 日 CVer

点击上方“CVer”，选择加"星标"或“置顶”

重磅干货，第一时间送达

本文转载自AI科技大本营

编者按：计算机视觉和模式识别大会 CVPR（Conference on Computer Vision and Pattern Recognition）作为人工智能领域计算机视觉方向的重要学术会议，每年都会吸引全球最顶尖的大学和公司的研究人员投稿。如果文章被录用，通常认为在你的研究子方向达到了国际领先水平，是对研究人员水平的一个肯定。同时，这对学生找工作，教师申请项目资金，企业对外宣传都有很大的帮助。

上月公布接受结果后，得到了圈内不少人士的积极解读。据悉，此次大会共收录 1300 篇论文，录用率接近 25.2%。此前 3 年 CVPR 的论文收录情况分别是：979 篇（2018）、783 篇（2017）、643 篇（2016）。本期，我们将分享京东在 CVPR 2019 上被收录的 13 篇文章，值得你一读！

Social Relation Recognition from Videos via Multi-scale Spatial-Temporal Reasoning

摘要：

本文关注于视频中人物社会关系（如朋友、同事、亲属等）的识别任务，提出了一种基于金字塔图卷积网络（PGCN）的多尺度时空推理（MSTR）框架，从视频的场景、人 - 人交互、人 - 物交互中推理人物的社会关系。

本文为刻画场景特征，采用 CNN+TSN 学习视频帧内全局视觉特征；为描述人与人、人与物间的动作与交互，将人、物的帧内关联与帧间关联构建为一种三元图模型，并采用 PGCN 从三元图模型学习不同时间尺度的动态视觉特征；最后将场景特征与人、物交互细节融合识别任务社会关系。

通过在本文构建的大规模社会关系视频数据集 ViSR 的实验评估，结果展示了 PGCN 模型和 MSTR 框架在视频人物社会关系识别人物的有效性。

Object-driven Text-to-Image Synthesis via Adversarial Training

摘要：

面向对象的复杂场景下文本到图像的合成。过去几年基于生成对抗网络（GAN）的图像合成取得了很大的进步，已经能够生成以假乱真的个体图像比如人脸，小鸟，等等。但受控的复杂的图像生成，特别是基于自然语言描述的图像生成仍然是个还未解决的问题，比如在复杂的自然语言描述中往往会涉及到多个物体及它们之间的关系的描写，这时，生成精确对应的图像是一个很大的挑战。

在这篇论文中，我们提出了一个对象驱动的注意力生成对抗网络（Obj-GAN）：它提出了一种新颖的面向对象的图像生成器，通过关注文本描述中的物体首先生成一个语义布局，再在此基础上逐步生成相应的物体，从而合成整张图像。此外，我们还提出了一种新的面向对象的鉴别器，以帮助判断合成的对象及语义布局是否符合文本描述。在大规模 COCO 数据集上，我们的 Obj-GAN 在各种指标上显著优于先前的技术水平。并且，对比之前的注意力生成对抗网络（AttnGAN），通过模型可视化可见此新模型能更好的在复杂场景下产生高质量图像。

A Dataset and Benchmark for Large-scale Multi-modal Face Anti-Spoofing

摘要：

人脸防伪对于人脸识别系统的安全性十分重要。目前主要的进展来自于人脸防伪数据集收集。但是，现有的人脸防伪数据集受限于假体人脸数量大小和攻击模态不足的限制。这两方面严重阻碍了人脸防伪领域的发展。因此，本文收集整理了一个大规模多模态的人脸防伪数据库，命名为 CASIA-SURF。该数据库是目前人脸防伪领域攻击人数最多和攻击模态最多的一个数据库。具体地，CASIA-SURF 包含有 1000 个的人真假体人脸数据，共 21，000 条视频，并且每条视频包含三个模态（RGB，深度图和近红外图）。

同时，我们提出了具体的评测数据集，评测协议，公布了一个新的人脸防伪标准。进一步，我们提出一个新颖的多模态融合方法作为基准。该融合方法相较于每个单模态，表现出了更好的性能。

ScratchDet: Training Single-Shot Object Detectors from Scratch

摘要：

在物体检测任务中，通常会使用在 ImageNet 分类数据集上预训练好的分类模型来进行检测任务的微调。然而这样做会有一些限制：（1）限制了用于特征提取的网络结构，检测任务更关注小物体，而分类任务所设计的网络绝大多数没有关注到小物体。（2）分类与检测是不同的任务：ImageNet 分类数据集是单图单物体，而常见的检测数据集是多图多物体。为此，我们想找到一种方法能够不使用预训练模型来随机初始化训练检测器的方法，同时保证训练稳定收敛，检测结果和使用预训练模型相似。

通过大量实验发现，批归一化方法能够使检测任务的优化空间更加平滑，梯度更加稳定，从而可以使用更大的步长来进行训练迭代，最终使随机初始化训练能够稳定收敛并且有较好的结果。在此之上，我们可以任意改动特征提取网络来设计适用于小物体检测的结构。我们分析了 VGGNet 与 ResNet 在 SSD300 检测框架上的性能差异，得出了网络第一层的下采样步长对于小物体检测非常关键。如果直接对原图进行下采样，会损失许多小物体的位置信息。

因此我们设计了 Root-ResNet，结合 VGGNet 与 ResNet 的优点，取消第一层的下采样步长。

最终 Root-ResNet 基于 SSD300 框架，在 PASCAL VOC 2007 与 2012，MS COCO 数据集上都取得了较好的结果，尤其是在小物体检测上。

Destruction and Construction Learning for Fine-grained Image Recognition

摘要：

通过 “破坏(Destruction)- 重建(Construction)” 的方式增强神经网络对细粒度图像的识别能力。首先，通过训练神经网络识别被 “破坏” 局部区域顺序的图像，强迫网络学会抓住重点区域，增强网络对具有区分度局部细节的特征学习能力。其次，通过让网络学会 “重排” 被打乱顺序的图像区域，增强网络对图像块之间语义相关性的建模能力。该方法在训练时不依赖额外标注信息（如特定位置标注），在测试时不增加额外的计算开销即可显著提升分类准确率。例如，在只对 ResNet50 新增 8192 个参数（占 ResNet50 总参数规模的 0.034%）的情况下，即可把 Resnet50 在 ImageNet 上的性能提升到接近 ResNet101 的水平。

Unsupervised Person Image Generation with Semantic Parsing Transformation

摘要：

时尚商品领域的人像生成通常面临缺少训练数据和非刚性变换的问题。不同于传统方法学习不同姿态间的直接映射，本文提出把复杂的无监督时尚人像生成问题分解为两个相对简单的子问题：语义解析转换、纹理生成。首先，我们提出进行语义解析图像（semantic parsing map）域（而不是原始图像域）的姿态转换来简化非刚性变换的复杂性。其次，采用纹理生成网络对变换过的语义解析图像进行语义导向的纹理填充。最后，我们提出一种可以端到端训练的方式来进一步优化生成效果。本文提出的方法可以被用在服饰纹理转换、受控图像编辑等时尚商品领域的生成应用。

Gaussian Temporal Awareness Networks for Action Localization

摘要：

提出 GTAN 模型，利用高斯核动态调节动作视频的时间尺度，改善时序动作检测性能。时序动作检测是当前计算机视频理解领域一个十分具有挑战性的问题。大多数已有的时序动作检测方法都从图像目标检测方法（例如 SSD 和 Faster R-CNN）中受到启发，并通过扩展得到, 检测一维时间序列上的动作位置。然而，这些方法因为提前固定了时间尺度，忽视了动作视频的固有结构而有着鲁棒性不高的问题，对于多变的动作视频，检测变得困难。

因此，为解决这个问题，在这篇论文中，我们通过引入高斯核来动态优化每一个时序动作的时间尺度，并提出了高斯时间感知网络（GTAN），将动作结构的探究融入了一步时序动作检测框架。GTAN 通过学习一系列的高斯核来建模动作视频的固有结构，每一个高斯核对应一个特定的动作片段，并通过融合多个高斯核用于检测时间多变的动作视频。

同时，高斯核对应的高斯曲线上各权值反映了各个时间点对该段动作视频检测的信息贡献。GTAN 在当下主流时序动作检测视频数据集 THUMOS14 和 ActivityNet v1.3 上取得了优异的性能表现，在二者的测试数据上相比目前最先进的方法有着 1.9% 和 1.1% 的 mAP 性能提升。

Learning Spatio-Temporal Representation with Local and Global Diffusion

摘要：

在视频特征学习领域，提出了新的局部和全局特征传播模型（LGD）。基于卷积神经网络的模型在视觉识别的各个领域中表现出了优异的效果，与此同时，其缺陷也十分明显，即每个卷积操作只作用在局部而忽视了远程像素的相关性。由于视频信息的复杂性以及视频内容在时间上长短不一，这种缺陷在视频识别领域暴露的更加明显。

因此，在这篇论文中我们提出了新的框架来通过局部和全局特征传播（LGD）来学习视频中的空间 - 时间特征。具体来说，我们构建了一个新的三维神经网络结构同步地学习局部和全局的特征，这种结构由基本的 LGD 模块构成，其中每一个模块通过两个特征互相传播来来同时更新局部和全局特征。这种传播操作有效地结合了局部和全局两方面的信息，从而获得了更加强大的视频特征表达。

考虑到这种网络最终会得到局部和全局两种特征，我们进一步提出了一种基于核方法的分类器来综合两方面信息做出分类。最终这种构建方式得到的 LGD 网络在常用的大规模视频分类数据集 Kinetics400 和 Kinetics600 上分别达到了 81.2% 和 82.7% 的准确度，均超过了之前最好的视频分类方法。接下来我们分别试验了预训练模型得到的局部特征和全局特征的泛用性，其中全局特征在视频动作视频数据集 UCF101 和 HMDB51，局部特征在视频动作检测数据集 JHMDB 和 UCF101D 数据集上均得到了比之前方法更好的效果。

Exploring Object Relation in Mean Teacher for Cross-Domain Detection

摘要：

针对跨域目标检测任务，提出了一种基于 Mean Teacher 并融合目标实例之间关系的方法。在视觉任务中通过渲染合成图像 (比如通过 3D CAD 模型生成带标注的图像数据集) 训练模型最近引起了越来越多的关注。然而由于合成图像和真实图像之间的差异，直接将在合成图像上训练的模型应用在真实图像上可能会导致比较大的泛化误差。为了解决这个问题，最近跨域识别领域采用 Mean Teacher 模型将无监督域适应任务当做半监督学习任务解决。通过 Teacher 和 Student 之间的一致性约束，不同域之间的差别得到缩小。

在这项工作中，我们进一步将 Mean Teacher 模型应用于跨域目标检测，提出融合目标实例之间关系的 Mean Teacher 模型 (MTOR)，在 Faster RCNN 的基本网络中加入对 Teacher 和 Student 输出的一致性约束。具体来说，MTOR 首先学习 Teacher 和 Student 模型中不同区域之间的相似度关系图，然后使用三个一致性约束优化整个结构：1）Teacher 和 Student 预测结果之间的区域级一致性约束，2）Teacher 和 Student 得到的相似度关系图之间的图间一致性约束，以及 3）Student 中同类区域之间的图内一致性约束。大量的实验结果表明，所提出的方法在 Cityscapes，Foggy Cityscapes 和 SIM10k 之间的迁移实验中取得了非常优异的结果。值得注意的是，所提出的方法在 Syn2Real 检测数据集上取得了单模型 22.8％的 mAP 结果。

Customizable Architecture Search for Semantic Segmentation

摘要：

提出了用于语义分割的可定制网络结构搜索方法—CAS。论文中提出了一种可定制的网络结构搜索技术，用来自动生成针对图像语义分割任务的网络结构。该方法生成的网络是由一系列堆叠的计算单元组成，其中每个计算单元均可以表示为有向无环图，图中每个节点是一个信息的隐式表达，每条边代表一个基本操作（例如卷积、池化等），它们可以将输入的数据变换至新的层。基于一个训练集，CAS 方法可以搜索空间中找到一个优化的计算单元，并用它来构建网络，网络中相同类型的计算单元拥有一致的结构但不共享权重。

在实际应用中，这个寻找优化的计算单元的过程中可能需要考虑一些约束，例如 GPU 运行时间和模型规模。为此，我们根据约束类型为每个操作赋予一定的开销，并在网络结构搜索过程中将其纳入优化目标，最终实现了在可定制的约束下搜索最优网络结构的目的。在 Cityscapes 与 CamVid 两个数据集上的评测中，该方法均展现出优于当前先进技术的性能。其中，该方法搜索得到的模型可以在使用一块 Nvidia TitanXp GPU 的情况下，以 108FPS 的推理速度，在 Cityscapes 测试集上 mIoU 达到 72.3%。

Pointing Novel Objects in Image Captioning

摘要：

提出 LSTM-P 模型，利用指向机制使得模型能够对包含新物体的图像进行描述。图像描述的自动生成近年来受到了广泛关注并取得了显著的进展。尽管如此，对于实际场景下蕴含有丰富语义内容的图像，现有的图像描述生成模型往往很难进行准确的描述。

因此，为了解决这个问题，在这篇论文中，我们提出了一个全新的基于 LSTM 的图像自动描述模型 LSTM-P，通过在标准的图像描述生成框架中引入物体学习器来支持字典扩张，同时利用指向机制来生成针对新物体的描述。具体地，物体学习器首先在物体识别数据上进行预训练，从而获取图像中包含的物体表达。随后在语言描述生成过程中，LSTM-P 的指向机制会在每一个时刻选择是由 LSTM 生成词语，还是从识别到的物体中直接拷贝词语。除此之外，LSTM-P 还引入了物体覆盖计算率，使得生成的描述倾向于覆盖图像中所有识别出的物体。LSTM-P 在主流的新物体图像描述数据集 held-out COCO 和图像识别数据集 ImageNet 上均取得了优异的描述结果，超越了目前最先进的方法。值得一提的是，LSTM-P 在 held-out COCO 上的 F1 分数可达到 60.9%。

Transferrable Prototypical Networks for Unsupervised Domain Adaptation

摘要：

提出一种基于原型网络（Prototypical Networks）的无监督迁移学习模型。原型网络（Prototypical Networks）往往会学习一个隐式空间并利用样本和每个类原型的距离来直接进行分类，在这篇论文中，我们在原型网络的基础上设计解决无监督下迁移学习的问题。

在该文章中，我们设计了一个全新的无监督迁移学习模型 TPN，使得源域和目标域中每个类的原型在嵌入空间中距离相近并且源域和目标域的原型数据预测的分数分布要一致。具体而言，TPN 在源域中为每个目标样本找到最近的原型，再为每个样本分配一个伪标签。这样的话，在源数据、目标数据或源 - 目标数据上可以分别计算得到各自的一种原型。然后，TPN 通过最小化原型在以上三种数据中的距离以及每对原型之间分数分布的 KL 散度进行端到端优化，实现无监督条件下的迁移学习。TPN 在主流的数据集 MNIST，USPS 和 SVNH 上均取得了优异的结果，超越了目前先进方法。此外，TPN 在 VisDA 2017 数据集上达到 80.4% 的准确率。

Heterogeneous Memory Enhanced Multimodal Attention Model for Video Question Answering

摘要：

提出一种基于原型网络（Prototypical Networks）的无监督迁移学习模型。基于异构记忆力模型的多模态注意力视频问答模型。本文对于视频问答 (Video Question Answering) 任务，提出了一种新的端到端学习框架，包含以下三个重要组成部分: 1) 一种新的异构记忆力模型用于学习视频的全局外观和动作特征; 2) 一种重新设计的记忆力模型用于学习复杂问题的语义; 3) 一种新的多模态融合层用于从事多步推理并且更新注意力以找到匹配的视觉和文本信息。

我们的视频问答模型首先使用记忆力模块处理当前输入的视频帧和单词以生成全局相关的视觉和文本特征。接着我们使用多模态融合层来融合视觉和文本特征来推理正确的答案，通过多步迭代推理来提炼相关的注意力权重，以提高最后的问答准确度。实验结果显示，我们的方法在相关的视频问答标准数据集上取得了当前最好的结果。

---End---

CVer学术交流群

扫码添加CVer助手，可申请加入CVer-目标检测交流群、图像分割、目标跟踪、人脸检测&识别、OCR、超分辨率、SLAM、医疗影像、Re-ID和GAN等群。一定要备注：研究方向+地点+学校/公司+昵称（如目标检测+上海+上交+卡卡）