学术 | 一骑绝尘商汤科技44篇论文入选 CVPR 2018

2018 年 5 月 10 日 商汤科技 商汤科技

全球计算机视觉顶级会议 IEEE CVPR 2018 (Computer Vision and Pattern Recognition，即IEEE国际计算机视觉与模式识别会议) 即将于六月在美国盐湖城召开，本届大会总共录取来自全球论文979篇。CVPR作为计算机视觉领域级别最高的研究会议，其录取论文代表了计算机视觉领域在2018年最新和最高的科技水平以及未来发展潮流。

从CVPR官网显示信息来看：今年有超过3300篇的大会论文投稿，录取的979篇论文，比去年增长了25%（2016年论文录取783篇）。这些录取的最新科研成果，涵盖了计算机视觉领域各项前沿工作。CVPR 2018包括21场tutorials、48场workshops，并且有来自全球各地超过115家企业将入驻今年CVPR工业展览。

商汤科技、香港中文大学-商汤科技联合实验室以及其他商汤科技联合实验室共有44篇论文被本届CVPR大会接收，其中包括口头报告论文3篇（录取率仅62/3300 = 1.88%），亮点报告论文13篇，论文录取数量相较于CVPR 2017的23篇又有大幅度提高，成绩斐然。全球领先的科研成果展示了商汤科技智能视觉领域强大的人才储备、科研底蕴和创新能力。

商汤科技CVPR 2018录取论文在以下领域实现突破：大规模分布式训练、人体理解与行人再识别、自动驾驶场景理解与分析、底层视觉算法、视觉与自然语言的综合理解、物体检测、识别与跟踪、深度生成式模型、视频与行为理解等。这些新颖的计算机视觉算法不仅有着丰富的应用场景，使得更多的智能视觉算法能应用于日常生活之中，还为后续研究提供了可贵的经验和方向。

大规模分布式训练

代表性论文：Oral – 深度增强学习自动网络结构设计

本文致力于解决深度神经网络结构的自动设计问题，与一般人工的结构设计不同，本文提出了一种高效算法，通过强化学习来自动设计最优的网络结构。传统的神经网络结构设计通常需要大量专家的知识和试错成本，并且甚至还需要一些灵感，每年仅有几个重要的网络结构被设计出来，因此，人工设计网络结构是一个难度极高的工作。近期的网络结构自动搜索的算法通常需要巨大的计算资源（数百块GPU，近一个月的训练），并且生产的模型可迁移性不强，难以做到真正的实用化。

本文提出了一种基于强化学习的网络结构自动设计算法，通过“网络块”的设计思想，让搜索空间大大降低，并且使设计的网络具有非常强的可迁移性。同时，本文使用“提前停止”和分布式架构来加速整个网络结构学习过程，达到了百倍于之前算法的速度（32块GPU，3天的训练）。实验表面，其生成的网络结构在CIFAR数据集上达到并且超越人类设计的网络结构的精度，并且其结构可以迁移到大规模的ImageNet数据上，取得良好的性能。

人体理解与行人再识别

代表性论文：Oral – 基于组一致性约束条件的行人再识别

行人再识别是新一代智能安防系统中的重要组件之一。给定一幅行人图像，行人再识别要求跨不同摄像头，对同一行人基于其视觉外观进行准确匹配和识别。现有深度学习算法通常使用过于局部的约束损失函数进行行人特征学习，因而不能精确的学习行人图像之间的视觉相似度。本文针对该问题提出一种新颖的组一致性约束条件，并通过连续条件随机场对该约束条件进行建模。将该连续条件随机场加入深度神经网络，从而实现该深度模型的端对端训练。实验结果表明该一致性条件在训练与测试中均能够大幅度提升最终视觉特征的鲁棒性与判别性，实现高精度的行人再识别。

自动驾驶场景理解

代表性论文：Spotlight – 极低延迟的视频语义分割

本文关注面向自动驾驶场景的视频实时语义分割问题，虽然近年来图像语义分割取得很大的进展，但是对于面向视频的语义分割任务仍然存在挑战。其主要困难在于：1）视频需要更多的计算量；2）许多实时的应用如自动驾驶需要实现低延迟性。

本文致力于解决这两方面的难题，同时尽可能的保证分割的精度。在视频分割问题中，邻近帧之间的语义标签的变化相对较小，因此不必每帧都使用一个完整的网络来提取语义标签。基于这种认识，本文提出了一个如图所示的语义分割的框架，把整个网络分为高层部分和低层部分，低层部分消耗较少的计算；本文的框架只在关键帧运行完整的网络来提取高层特征进行语义分割，而在其他帧则从上一个关键帧传播特征来进行语义分割。相应的框架由两部分组件构成：1）关键帧调度模块，以及2）特征跨帧传播模块，其都基于低层特征进行相应的计算，因此相对完整的网络计算量小很多。同时为了减少延迟，在检测到当前帧为关键帧时，使用了一个低延迟的调度策略。本文提出的方法在两个数据集上均验证了我们方法的有效性，取得了较低延迟并保持精确的分割精度。

Spotlight – 基于单视图的立体匹配

面向自动驾驶场景的单目深度估计方法，通常利用一个视角的图像数据作为输入，直接预测图片中每个像素对应的深度值，这就导致了现有方法通常需要大量的带深度信息标注的数据。近期的研究提出了在训练过程引入了几何约束的改进，但是在测试过程仍然缺乏显式的几何约束。本文提出把单目深度估计分解为两个子过程，即视图合成过程以及双目匹配过程，通过这样分解之后，使得所提出的模型既可以在测试阶段显式地引入几何约束又可以极大的减少对带深度标注数据的依赖。实验证明，本文提出的方法仅利用少量的深度数据就可以在KITTI数据集上超过之前的所有方法，并首次仅靠单目图像数据就超过了双目匹配算法Block Matching，进一步推动了单目深度估计技术的落地。

底层视觉算法

代表性论文：Spotlight – 基于深度增强学习的普适图像复原

本文提出了一种新颖的深度学习图像复原方法。大部分已有复原算法仅面向解决某类特定的图像复原问题，因而对各种不同类别的降质图像缺乏普适性。针对该问题，本文提出的RL-Restore算法先训练一系列针对不同降质图像的小型神经网络；同时设计一种评价图像复原质量的奖励函数，使用增强学习算法学习如何将这些小型神经网络进行合理组合。针对不同的降质图像，获得不同的复原算法组件的组合，实现对复杂降质图像的有效复原。

视觉与自然语言的综合理解

代表性论文：Spotlight – 面向视觉问题回答的对偶视觉问题生成

针对开放式视觉问答（Open-ended VisualQuestion Answering）中训练数据过少的问题，本文提出了一种“可逆问答网络”。该模型可以通过重组不同模块，使一组模型同时完成“问题回答”和“问题生成”两种互逆的两个任务。该模型通过充分利用视觉问答和视觉问题生成的对偶性，提升模型对于有限训练数据的利用效率。该方法采用两个任务同时训练同一模型，使网络能够对问题和图片之间的联系有更深的理解，从而在问题生成和问题回答两个任务上都取得了更好的精度和效果。

人脸识别与人脸分析

代表性论文：Poster – 超越人脸识别的人脸解离特征空间学习

本文同时解决人脸识别、属性分类和任意人脸生成这三个问题。大多数人脸特征学习的工作通常能够让网络学习得到一个具有极强身份或属性区分度的特征，以应用于人脸识别、属性分类等任务；或者学习一个具有全局信息的特征，以应用于人脸生成和编辑等应用。为什么不能学习到一个完备的特征空间并使得语义信息高度区分化，进而实现一个特征能够完成所有的任务呢？本文提出了一个信息蒸馏与驱逐网络的框架，只使用身份ID作为监督信息，学习到了一个同时具有极强信息区分度且包含全局信息的稠密凸特征空间。在LFW、LFWA和CelebA等数据集上的实验表明，人脸在该特征空间下的投影具有极高的身份、属性识别能力，且该空间内的任意一个点均具有较强的身份和属性语义，并可生成具有该语义的人脸图像。

Poster – 基于边缘感知的人脸关键点定位

本文提出一种基于边缘感知的人脸关键点检测算法，将人脸边缘线所描述的结构信息融入到关键点检测中，极大地提升了算法在大侧脸、夸张表情、遮挡、模糊等极端情况下的检测精度。文章主要解决了两大问题：1. 人脸关键点在各个数据集间歧义性，定义不一致问题。文章通过捕捉对于人脸更通用的边缘线信息，将其作为人脸到关键点的中间媒介，使得不同数据集即使存在关键点差异，仍然可以相互辅助训练。2. 复杂情况下关键点检测精度问题。本文首先通过消息传递结合对抗学习得到高精度的边缘线检测结果，再将边缘线信息多语义层次地融合到关键点检测中，使得算法在复杂情况下的鲁棒性大幅提升。

另外，文章还提出了一个新的人脸关键点检测数据集Wider Facial Landmarksin-the-wild (WFLW)，包含10,000 张带有98点和6属性标注的人脸数据，旨在帮助学界更有效的评估关键点算法在各种条件下的鲁棒性。

物体检测、识别与跟踪

代表性论文：Poster – 快速的端到端多角度文字检测与识别方法

本文首次提出了端到端的多角度文字检测与识别方法。文字检测与识别(OCR)是计算机视觉领域的经典问题，过去的做法将文字检测与识别看做两个问题分别解决。本文提出了一个端到端的方法同时进行文字检测与识别，验证了这两个任务相辅相成，共同监督网络训练可以让这两个任务取得更好的精度。由于两个任务共用一个特征提取的网络，速度也是分别进行文字检测与识别的两倍左右。同时本文也提出了RoIRotate操作，其扩展了RoIAlign，可以应用于旋转物体的检测。本文在多个数据集上超过了现有方法。

Poster – 基于孪生候选区域网络的高性能视觉跟踪

本文提出一种基于端到端深度学习框架的高性能单目标跟踪算法。现有的单目标跟踪算法通常较难兼顾性能和速度，仅能在某一指标占优。本文利用孪生（Siamese）网络和区域候选网络（Region Proposal Network），构建了一种高速高精度的单目标跟踪算法。两个子网络通过卷积操作升维，统一在一个端到端的深度神经网络框架里。训练过程中，算法可以利用拥有密集标注（VID）和稀疏标注（YoutubeBB）的数据集进行训练。相较于现有方法，稀疏标注的数据集大大增加了训练数据来源，从而可以对深度神经网络进行更充分的训练；区域候选网络中的坐标回归可以让跟踪框更加准确，并且省去多尺度测试耗费的时间。实验方面，本文提出的跟踪算法能在160帧速度下达到VOT2015和VOT2016数据集上目前的先进水平。

深度生成式模型

代表性论文：Poster – 基于特征装饰的实时零点风格迁移

目前针对图像风格化的实时应用，大多需要针对特定的风格图来设计特定的风格迁移模型；如果需要实现对于任意风格图的迁移，计算复杂度和迁移效果大多不能得到保证。本文提出一种实时零点图像风格迁移模型，实现对于任意风格图像的多尺度高质量风格化迁移。该方法基于名为风格装饰器的特征迁移网络结构，可以容易地嵌入图像重构网络中来达到多尺度的风格特征迁移。该网络结构使得生成的风格化图像充分表达风格图中的具体纹理模式，同时保留原图中的语义信息。实验表明，该网络对各种类别的风格图都有较高的风格化能力，并且可以有效扩展到多风格迁移和视频风格迁移等应用中。

附录

商汤科技、香港中文大学-商汤科技联合实验室及其他商汤科技联合实验室共有44篇论文被接收，具体如下：

1.3D Human Pose Estimation in the Wild by Adversarial Learning

Wei Yang, Wanli Ouyang, Xiaolong Wang, Xiaogang Wang