CVPR 2018，盘点我心中的创意 TOP10

2018 年 7 月 22 日 机器学习算法与Python学习

翻译 | 程炜廖颖校对 | 林骁整理 | AI研习社

2018 计算机视觉与模式识别会议（CVPR）上周在美国盐湖城举行，它是世界计算机视觉领域的顶级会议。今年，CVPR 收到了主要会议论文投稿 3300 份，接受了其中的 979 份。超过 6500 人出席了会议！6500 人齐聚一堂。每年，CVPR 都会带来杰出的人以及他们伟大的研究，我们总能看到并学习到新的东西。当然，总有些论文发表新的突破性成果并带来新的知识。这些论文经常为计算机视觉的许多子领域带来最新技术。

添加微信：MLAPython，备注（姓名-单位-方向）

即可加入机器学习交流群

最近，很乐于看到的具有创造性的论文，伴随着深度学习在计算机视觉领域的突飞猛进，我们仍在探索所有的可能性。许多论文将提出全新的深度网络在视觉上的应用。它们可能不是最根本的、具有突破性的工作，但它们很有趣。它们提供了创造性和启发性的视野，经常从新的角度引发新的想法。总而言之，它们很酷！

在这里，我将向你们展示我认为是CVPR 2018中最酷的10篇论文。我们将看到最近才可能使用深度网络的新应用。另外，其他论文提供了一个如何使用它们的新方法。你可以沿着这个方向找到一些新的想法。无需多言，让我们来看看吧！

利用综合数据训练深度网络：通过域随机化来弥补现实差距

论文地址：https://arxiv.org/abs/1804.06516

这篇论文来自英伟达（ NVIDIA ）。它在使用合成数据来训练卷积神经网络（CNNs）上获得长足进步。它为 Unreal Engine 创建了一个插件，用于生成合成的训练数据。真正的关键是它们将训练数据的变量随机化，包括：

对象的数量和类型
干扰项的数量、类型、颜色和尺度
感兴趣物体的纹理和背景照片
虚拟摄影机相对于场景的位置
摄像机相对于场景的角度
点光源的数量和位置

他们展示了一些大有前途的结果，证明了用合成数据进行预训练的有效性。这个结果是以前没有达到。如果你缺少一些重要资源，它可能会对如何生成和使用合成数据有所帮助。

该论文中出现的图片

WISPE：数码相机弱监督照片增强器

论文地址：http://www.vision.ee.ethz.ch/~ihnatova/wespe.html

真是机智啊！他们训练生成对抗网络（GAN）来自动美化照片。最酷的部分是它是弱监督的，你不需要输入-输出图像对！你训练的网络需要的是一组“好看”的图像（对于输出的标注图像）和一组你想要增强的“难看”的图像（对于输入图像）。然后，对 GAN 进行训练以产生输入图像的美化后的版本，通常极大地增强图像的颜色和对比度。

它是快速并且容易使用的，因为你不需要精确的图像对，最后你会得到一个“通用”的图像增强器。我也喜欢这种弱监督的方法。无监督的学习似乎相当遥远。但是对于计算机视觉中的许多子领域来说，弱监督似乎是一个有前途、有利可图的方向。

该论文中出现的图片

Polygon-RNN++ 分割数据集的高效交互标注

论文地址：https://arxiv.org/abs/1803.09693

深度网络工作得如此好的一个主要原因是有大量和完全注释的数据集可供使用。然而，对于许多计算机视觉任务来说，这样的数据既耗时又昂贵。特别是分割数据需要图像中的每个像素的类标记。正如你所想象的…对于大数据集来说，这个过程可能永远持续下去！

Polygon-RNN++ 允许用户在图片中每个目标周围设置粗略的多边形，然后神经网络会自动生成分割标记。这篇论文很好地论述了这种方法，这种方法也可以在分割任务中创建快速、简单的标记。

该论文中出现的图片

在时尚大片中创造胶囊衣柜

论文地址：https://arxiv.org/abs/1712.02662

我今天应该穿什么呢？如果每天早上都有人或东西来回答这个问题而不需要你去想，那该有多好啊。如果想拥有这样的东西，来认识一下胶囊衣柜（Capsule Wardrobes）吧。

这篇论文作者设计了一个模型，给定一个待选服装和饰品的清单，胶囊用最少的物品组成物品集，而这个集合可以提供最多的混搭配备。模型使用目标函数进行基本的训练，而目标函数的设计是用来获取视觉兼容性、多功能性和用户特定喜好的关键因素。使用胶囊衣柜，可以轻松地从你的衣橱里找到符合你品位的最佳搭配。

该论文中出现的图片

Super SloMo：视频插值中多幅中间帧的高质量估计

论文地址：https://arxiv.org/abs/1712.00080

你有想过用超级慢动作拍摄一些超级酷的东西吗？不妨看看英伟达（Nvdia）的 Super SloMo 吧！他们的卷积神经网络估计出视频中间帧，并且能够将标准的 30fps 的视频转换为看上去惊人的 240fps 下的慢动作！模型估计帧间光流，使用该模型还可以不影响画质地插入视频帧，从而慢镜头看上去也是清晰的。

一颗子弹穿过鸡蛋，super SloMo！

谁在控制狗？根据视觉数据对狗的行为建模

论文地址：https://arxiv.org/abs/1803.10827

这可能是有史以来最酷的研究论文名字！它的思路是尝试并建模狗的所行所想。作者在狗的四肢安装了大量的传感器来收集它的运动数据，也在其头部安装照相机来获取狗看世界的第一视角。使用了一组卷积神经网络特征提取器来提取从视频帧中得到的图像中的特征，然后这些特征就和传感器数据一起传到一组长短期记忆网络，来学习和预测狗的行为。这是一个很新颖且具有创造力的应用。这个任务独特的框架和实现，都让这篇文章值得一读！希望这篇文章可以给未来的研究激发创造力，不管是对我们采集数据的方式还是深度学习技术的应用。

该论文中出现的图片

学习分割一切

论文地址：https://arxiv.org/abs/1711.10370

最近几年，何凯明团队（早先在微软亚洲研究院，现在在 Facebook 人工智能研究实验室）进行了大量的计算机视觉研究。他们文章的厉害之处就在于将创新性与简洁性有效结合。 ResNets 和 Mask R-CNN 都不是最疯狂、最复杂的研究思路。它们都非常简单、易于实现，在实践中也非常有效。这一篇也是一样。

学习分割一切是 Mask R-CNN 的扩展，使得神经网络在训练过程中不看见类也能进行分割！这对快速、低成本获取数据集标记十分有效。它可以获得不可见目标类强大的基准库分割，这对在野外部署分割神经网络是十分重要的，因为在那样的环境中，存在着大量的不可见目标类。整体看来，这是我们朝着如何思考最大限度利用深度神经网络模型正确方向走了一步。

该论文中出现的图片

在笔记本上亲临球赛

论文地址：https://arxiv.org/abs/1806.00890

在世界杯进行之际，这篇论文的发布可以获得最佳时机奖了！这真的是 CVPR 计算机视觉里比较酷的应用之一。简单地说，给定一个足球比赛视频能够输出比赛的三维动态重建，从而训练模型。这就意味着你可以使用增强现实技术在任何地方观看这场比赛！

模型比较机智的地方在于不同类型信息的结合使用。使用视频比赛数据训练网络，根据这些数据可以非常轻易地提取三维网格。测试时，运动员的边界框、姿态和轨迹（在多帧之间）被提取来对其进行分割。这些三维分割可以简单地投影到任意空间（这样你就可以任意制作虚拟球场）实现增强现实的足球比赛观看！在我看来，使用合成数据来训练时很聪明的做法，同样也是很有趣的应用！

该论文中出现的图片

LayoutNet：从单幅彩色图像实现房间布局的三维建模

论文地址：https://arxiv.org/abs/1803.08999

我们中大多数有都有过这样的想法：给某个东西拍张照片，然后在数字三维对其进行重建。这篇论文就是一个计算机视觉的应用，也正好是来实现这个想法的，尤其是对房间的三维重建。他们将全景图像作为输入来获得房间的整个视野，输出就是一个非常精确的三维重建的房间布局！这个模型有足够的能力来生成不同形状的房间，房间中可以包含许多不同的家居摆设。这个应用非常有趣，不用看大量计算机视觉研究员的工作，可以很好地阅读。

该论文中出现的图片

学习转换架构实现可扩展图像识别

论文地址：https://arxiv.org/abs/1707.07012

最后但也重要的就是关于深度学习的未来的思考：神经架构搜索（NAS）。 NAS 背后的基本思想是取代手动设计网络架构，我们可以采用另外的神经网络来 “搜索”最好的模型结构。这个搜索基于回报函数，是很聪明的。回报函数对那些在验证数据集上表现良好的模型进行奖励。作者在文中展示了一个比手动设计更加精确的架构。这在未来是有很大发展空间的，尤其是特定应用的设计。因为我们只需要将全部精力放在设计好手动设计 NAS 算法，而不是为我们特定的应用设计特定的网络。一个良好设计大的 NAS 算法是足够灵活的，可以为任意特定任务找到好的网络。