ICCV 2019 | 旷视研究院 11 篇论文入选 ICCV 2019（含目标检测/Re-ID/文本检测/模型剪枝等）

2019 年 7 月 29 日 极市平台

加入极市专业CV交流群，与6000+来自腾讯，华为，百度，北大，清华，中科院等名企名校视觉开发者互动交流！更有机会与李开复老师等大牛群内互动！

同时提供每月大咖直播分享、真实项目需求对接、干货资讯汇总，行业技术交流。点击文末“阅读原文”立刻申请入群~

近日，两年一度的计算机视觉国际顶级会议 International Conference on Computer Vision（ICCV 2019）官方网站公布了论文的最终录用结果，旷视研究院 11 篇论文入选 ICCV 2019，入选内容涵盖目标检测、Re-ID、文本检测、模型剪枝等方向。

1.Objects365：用于对象检测的大规模高质量数据集

数据集：

http：//www.objects365.org/overview.html

在本文中，我们介绍了一个新的大型物体检测数据集Objects365，它具有超过600Kimages的365个对象类别。超过1000万个高质量的边界框通过精心设计的三步注释管道手动标记。到目前为止，它是最大的对象检测数据集（具有完整的注释），并为社区建立了更具挑战性的基准。Objects365可以作为更好的特征学习数据集，用于对象检测和语义分割等本地化敏感任务。Objects365预训练模型显着优于ImageNet预训练模型：当在COCO基准上训练90K / 540K迭代时，5.6（42 vs 36.4）/ 2.7（42 vs 39.3）点更高。同时，当达到相同的准确度时，可以大大减少（最多10次）。Object365的更好的泛化能力也已经在CityPersons，VOC分割和ADE任务上得到验证。我们将发布数据集以及所有预先训练的模型。

2.ThunderNet：实现通用对象检测

论文链接：https ：//arxiv.org/abs/1903.11752

移动平台上的实时通用对象检测是一项至关重要但具有挑战性的计算机视觉任务。然而，先前基于CNN的检测器遭受巨大的计算成本，这阻碍了它们在计算受限的场景中的实时推断。在本文中，我们研究了两级探测器在实时通用检测中的有效性，并提出了一种名为ThunderNet的轻型两级探测器。在骨干部分，我们分析了以前轻量级骨干网的缺点，并提供了一个专为对象检测而设计的轻量级骨干网。在检测部分，我们利用极其高效的RPN和检测头设计。为了生成更多的判别特征表示，我们设计了两个有效的架构块，上下文增强模块和空间注意模块。最后，我们研究输入分辨率，主干和检测头之间的平衡。与轻量级单级探测器相比，ThunderNet在PASCAL VOC和COCO基准测试中仅占40％的计算成本，性能卓越。没有花里胡哨，我们的模型在基于ARM的设备上以24.1 fps的速度运行。据我们所知，这是第一个在ARM平台上报告的实时检测器。代码将发布用于纸张复制。

3.使用PixelAggregation网络进行高效准确的任意形状文本检测

论文链接：尚未上传

场景文本检测是场景文本阅读系统的重要一步，目前卷积神经网络的发展迅速。尽管如此，仍然存在两个主要挑战，并阻碍其部署到实际应用程序。第一个问题是速度和准确性之间的权衡。第二个是模拟任意形状的文本实例。最近，已经提出了一些方法来处理任意形状的文本检测，但它们很少考虑整个流水线的运行时间，这在实际的生产环境中可能不尽如人意。本文提出了一种高效准确的任意形状。textdetector，称为像素聚合网络（PAN），它配备了低计算成本的分割头和可学习的后处理方法。更具体地说，分割头由特征金字塔增强模块（FPEM）和特征融合模块（FFM）组成。FPEM是一个可级联的U形模块，可以引入多级信息来指导更好的分割。FFM可以将不同深度的FPEM给出的特征收集到最终的分割特征中。可学习的后续处理由像素聚合（PA）实现，其可以通过预测的相似性向量精确地聚集文本像素。几个标准基准的实验验证了所提出的PAN的优越性。值得注意的是，我们的方法可以在84.2 FPSon CTW1500处实现79.9％的竞争性F-测量。据我们所知，PAN是第一种能够实时检测任意形状文本实例的方法。

4.基于互导的网络半监督皮肤检测

论文链接：尚未上传

在本文中，我们提出了一种新的数据驱动方法，用于从单个人像图像中进行稳健的皮肤检测。与以前的方法不同，我们将人体融入其中

对于该任务的弱语义指导，考虑获取大量人类标记的皮肤数据通常是昂贵且耗时的。具体而言，我们提出了一种双任务神经网络，通过半监督学习策略联合检测皮肤和身体。该dualtask网络包含一个共享编码器，但分别为皮肤和身体提供两个解码器。对于每个解码器，其输出也可作为其对应的指导，使两个解码器相互引导。我们进行了广泛的实验，以相互指导展示我们网络的有效性，实验结果表明我们的网络优于皮肤检测的最新技术水平。

5.使用伪标签的半监督视频突出物体检测

论文链接：尚未上传

基于深度学习的视频显着对象检测最近取得了巨大成功，其性能明显优于任何其他无监督方法。然而，现有的数据驱动方法严重依赖于大量按像素标注的视频帧来提供如此有希望的结果。在本文中，我们使用伪标签来解决这些受监督的视频显着对象检测任务。具体而言，我们提出了一种有效的视频显着性检测器，它由空间细化网络和时空模块组成。基于光流的相同的细化网络和运动信息，我们进一步提出了一种从稀疏注释帧生成像素级伪标签的新方法。通过将生成的伪标签与手动注释的一部分一起使用，我们的视频显着性检测器学习对比度推断和相干性增强的空间和时间，从而产生准确的显着性图。实验结果表明，我们提出的半监督方法甚至大大优于VOS，DAVIS和FBMS三个公共基准的所有最先进的监督方法。

6.解缠图像消光

论文链接：尚未上传

大多数先前的图像消光方法需要通过特定的三元组作为输入，并估计三元组未知区域中所有像素的小数alpha值。在本文中，我们认为从粗三元组直接估计alpha遮罩是以前方法的一个主要限制，因为这种做法试图同时解决两个不同的本质上不同的问题：在trimap区域内识别真正的混合像素，并估计准确的alpha我们提出了AdaMatting，这是一个新的端到端消息框架，可以将这个问题解决为两个子任务：trimap自适应和alpha估计。Trimapadaptation是一种按像素分类的分类问题，它通过识别有限的前景，背景和半透明图像区域来推断输入图像的全局结构。Alpha估计是一个回归问题，它会影响每个混合像素的不透明度值。我们的方法在单个深度卷积神经网络（CNN）中分别处理这两个子任务。大量实验表明，即使使用低质量的输入三维图，AdaMatting也可以产生高质量的结果。我们的方法在质量和数量上刷新了Adobe Composition-1k数据集的最新技术性能。它也是thealphamatting.com在线评估所有常用指标的当前最佳表现方法。我们的方法在质量和数量上刷新了Adobe Composition-1k数据集的最新技术性能。它也是thealphamatting.com在线评估所有常用指标的当前最佳表现方法。我们的方法在质量和数量上刷新了Adobe Composition-1k数据集的最新技术性能。它也是thealphamatting.com在线评估所有常用指标的当前最佳表现方法。

7.针对人物搜索的重新ID驱动的本地化细化

论文链接：尚未上传

人物搜索旨在从未成像的场景图像库中定位和识别出来的人。不同于人物识别（re-ID），其性能

还取决于行人检测员的定位精度。现有技术的方法单独训练检测器，并且检测的边界框对于随后的重新ID任务可能是次优的。为了解决这个问题，我们提出了一种重新ID驱动的本地化细化框架，用于为人提供精确的检测框

搜索。具体来说，我们开发了一个可微分的ROI变换层，以有效地从原始图像转换边界框。因此，框坐标可以是

由原始检测任务以外的重新ID培训驱动。通过联合监督，探测器可以生成可靠的边界框，这进一步受到青睐

该人重新ID任务。对广泛使用的基准测试的广泛实验结果表明，我们提出的方法有利地反对最先进的人物搜索方法。

8.具有视点感知度量学习的车辆重新识别

论文链接：尚未上传

本文考虑了车辆重新识别（重新识别）问题。极端视点变化（高达180度）对现有方法构成了巨大挑战。受到人类认知过程中的行为的启发，我们提出了一种新颖的视点感知度量学习方法。它学习了两个相似观点和不同观点的指标

两个特征空间中的视点分别产生视点感知网络（VANet）。在培训期间，共同应用两种类型的约束。在推理期间，

首先估计视点并使用相应的度量。实验结果证实，VANets显着提高了重新ID的准确性，特别是当这对时

从不同的角度观察。我们的方法是在两个基准测试中建立新的最新技术。

9.MetaPruning：自动神经网络ChannelPruning的元学习

论文链接：https ：//arxiv.org/abs/1903.10258

在本文中，我们提出了一种新的元学习方法，用于深度神经网络的自动通道修剪。我们首先使用PruningNet，一种元网络，它能够为给定目标网络的任何修剪结构生成权重参数。我们使用简单的随机结构抽样方法来训练PruningNet。然后，我们应用一个演化过程来搜索性能良好的修剪网络。搜索非常高效，因为权重是由经过培训的PruningNet直接生成的，我们不需要任何微调。通过为目标网络培训的singlePruningNet，我们可以在不受人类参与的情况下搜索不同约束下的各种PrunedNetworks。我们在MobileNet V1 / V2网络上展示了竞争性能，ImageNet精度比V1 / V2高出9.0 / 9.9。

10.用于场景文本识别的对称约束校正网络

论文链接：尚未上传

由于文本实例的多样性和自然场景的复杂性，在野外阅读文本是一项非常具有挑战性的任务。最近，社区越来越关注识别不规则形状的文本实例的问题。解决这个问题的一个直观而有效的解决方案是将不规则文本纠正为规范之前的识别。但是，在处理高度弯曲或扭曲的文本实例时，这些方法可能会很困难。为了解决这个问题，本文提出了一种基于文本实例的局部属性的对称约束整流网络（ScRN），如中心线，比例尺和方向。具有对文本形状的准确描述的这种约束使得SIGRN能够比现有方法产生更好的校正结果，从而导致更高的识别准确度。我们的方法在常规和不规则形状的文本上实现了最先进的性能。具体而言，该系统在包含相当大比例的不规则文本实例的数据集上大大优于现有算法，例如ICDAR 2015，SVT-Perspective和CUTE80。

11.学习基于模型的深层强化学习绘画

论文链接：https ：//arxiv.org/abs/1903.04411

我们展示如何教机器像人类画家一样画画，他们可以用几笔画来创作出奇妙的画作。通过结合神经渲染器和基于模型的深度强化学习（DRL），ouragent可以将纹理丰富的图像分解为笔划并制作长期计划。对于每个笔划，代理直接确定笔划的位置和颜色。使用数百次击打可以实现出色的视觉效果。训练过程不需要人体绘画或stroketracking数据的经验。

*延伸阅读