2019年CVPR技术见闻

会员服务 ·

2019年CVPR技术见闻

2019 年 7 月 4 日 CVer

点击上方“CVer”，选择加"星标"或“置顶”

重磅干货，第一时间送达

本文授权转载自：SIGAI

作者

Johnny 香港大学PhD candidate

研究方向：计算机视觉

2019年的CVPR在美国长滩(long beach)召开，为期5天，从6.16-6.22。长滩是一个风景优美，空气清新的临海城市，很适合开会之后的旅游。

接下来我简单叙述一下会议这几天我看到的，或者我感兴趣的一些话题，还有一些会场的氛围和体验。

目标检测的发展

头两天主要是各种workshop和tutorials，主要有各种大佬在会议室宣传自己的工作和理念等等。我去101听了facebook AILab的大佬讲了讲computer vision的工作，主要是从faster rcnn讲到mask rcnn，再加上最新的mesh rcnn。这个topic人很多，我只能站门口。

这个topic主要讲了目标检测的发展，其实就是宣传facebook自己的工作，从Faster R-CNN开始回顾，Faster R-CNN主要是2D的目标检测，算是目标检测早期最有影响力的工作之一。个人感觉自从Faster RCNN开始，Kaiming, Ross等人沿着Faster RCNN做了一系列工作，同时也很注重Faster RCNN的宣传，到今天为止，类似于Faster RCNN这种anchor based的方法已经深入人心，同时基于Faster RCNN的方法已经应用到各种目标检测行业，比如人脸检测，文字检测，行人检测，遥感图像检测等等。

接下来演进到FPN和Mask R-CNN, FPN使用特征金字塔分尺度检测目标，Mask R-CNN在FPN的基础上，多出了一支Mask去对每个目标进行实例分割。再接下来是宣传他们最新的Mesh RCNN, 主要是做三维目标检测和形状分析。

Mesh RCNN主要用于三维目标检测，可以从单张输入图像中检测不同物体，并预测出每个物体对应的三角网格，将二维目标检测的能力成功地拓展到了三维目标检测和形状预测。这一方法基于Mask R-CNN改进而来，增加了网格预测分支来输出高分辨的目标三角网格。

这一模型主要分为三个部分，包括了预测box和mask的检测分支、预测体素的分支和mesh优化分支。受到RoIAlign的启发，研究人员在网格预测中加入了VertAlign将输入图像与特征进行对应。体素预测分支与box/mask预测分支的输入相同，都使用了与图像对齐的特征。模型最后将目标检测、语义分割损失与网格预测损失结合起来一同对网络进行端到端的训练和优化。

可以看到真正的大牛组做的工作都是一脉相承的，而不是东一锤子西一棒。下图是网上的图，大致可以把facebook这几个工作串起来。

两个新的数据集

还有是旷视的workshop。主要是宣传两个数据集，Crowd Human和Objects 365。同时举办了比赛，获奖者分别是百度和头条。这两个数据集和对应的比赛都是检测相关的，感觉也挺有意思的，旷视在检测领域思考得一直比较细，经常拿COCO冠军，大家都知道的。

第一个数据集是crowd human,主要的问题是在超级密集的人群下进行人的检测，基于anchor的方法表现不好，因为nms会互相杀掉很多框，因此旷视希望通过这个数据集引出一些新的算法。

第二个数据集是Objects 365。这个数据集比coco更大，更强。大家都知道coco有80个类别，而objects365有365个类别，同时数据量达到了200万张，而且在objects365上预训练的模型只需要在coco上finetune几个epoch，就能够超过coco上训练的表现，足以证明泛化能力强。这个数据集也能引出一些问题，比如现在很多方法号称可以有用，但是是否仅仅因为数据量不够大，当数据量够大的时候，有哪些方法是真正能够work的呢？

有意思的Poster

第3-5天是主会场，各种oral文章讲解，poster讲解都在这三天，可以亲自问作者关于文章的细节，并认识各种大佬和老师等等，很多同学趁这个机会和老师套磁，从而可以增加自己申请phd的机会。贴几个我喜欢的poster~

《Leraning from Synthetic Data for Crowd Counting in the wild》是做crowd counting的，这个task个人感觉蛮有意思，就是通过一张图里分析有多少人，这个领域做法一般简单粗暴，直接回归heatmap然后求和，这篇文章有意思的地方在于作者先通过物理引擎合成出密集的人的场景(侠盗猎车玩过吧，和那个差不多)，然后通过domain adaptation的方法将合成数据风格迁移到真实数据上，可以取得还不错的效果。

《Point in, Box out:Beyond Counting Persons in Crowds》这篇文章也是做crowd counting的，主要思想是直接通过回归heatmap不够准，毕竟很多人头挨得很近的话heatmap会糊成一片，他通过预测bounding box的方法做人群计数，感觉和detection有点类似吧。

《Visual Question Answering as Reading Comprehension》这篇文章是做VQA视觉问答的，个人觉得也挺有意思，VQA在之前也有很多工作，不过没有考虑到知识库，即一张图中如果有一只猫一只狗，传统vqa只能回答，图里有几只猫？这个问题通过图内信息可以得到，但是如果更进一步的问题：图里哪个动物会爬树？这个问题涉及到知识库，传统vqa无法回答，这篇文章利用了额外的知识库来辅助回答这些问题，做法还是挺新的。

poster总结

第一个是现在华人在CV领域真的是顶了半边天，很多poster前都是华人，大部分情况下直接说中文就行了，非常方便。

第二个是现在学术界很多半监督，无监督的话题很受欢迎，工业界主要还是做一些比较硬核的东西，也不能说谁好谁坏，只能说以后工业界和学术界可能感兴趣的点会越来越不一样。最简单的例子比如是domain adaptation, 这个算半监督学习吧，今年domain adaptation非常火，因为不需要依赖大量标注资源，但是工业界不认可这个，毕竟公司不差标数据的钱，而且公司的诉求是精度越高越好。而学术界会思考的远一点，但是往往不太实用。

第三个点是现在多学科交叉的东西也比较受欢迎，毕竟深度学习发展这么久了，很多老的话题已经做的很好了，需要拓展新问题。比如以前很多独立的任务现在越来越倾向于放在一个网络中去end to end 处理，像行人检测和reid，文字检测和识别，一些low-level的工作也是，比如超分辨率和去噪等。

其它有意思的topic

英伟达的topic,主要讲GAN，我对GAN也挺感兴趣的，发现人同样很多...英伟达在GAN领域做了很多工作，其中包括人脸生成。

别的还有很多tutorial，分布在不同的房间，topic也是各种各样，比如3D生成，语义分割，自动驾驶等等。

收获与感想

CVPR一周之旅过得很快，每天都很匆忙，很累但是很充实。作为一个学生，我来CVPR主要的收获是认识了一群同龄人中的大佬和一些更加senior的工业界的人和教授。感觉学生来CVPR无论是对工作，申请还是同行交流都很不错。现在CVPR上很多公司都公开招人的。对于已经在工业界的人，来CVPR个人感觉主要是和同行交流，招人和宣传自己的工作。因此我觉得无论是谁，来CVPR都能收获很多。

目前计算机视觉十分火热，大家都对这个行业充满憧憬，希望它能持续火热下去，但是未来怎么样依旧是一个看不清的东西。一方面来说计算机视觉的研究过去几年是个爆发式的突破，很多东西真的是从0-1建立起来的，比如检测，分类，分割，而现在研究往往新问题没有以前多了，很多都是小修小补，因为很多问题基于CNN已经取得了不错的效果。另一方面来说计算机视觉在企业飞速落地，越来越多的项目需要计算机视觉应用人才，因此提供了很多就业岗位。

不管怎么样，只有提高自己的实力，持续做出有影响力的工作，才会被人记住你的名字。