参加 CVPR 2019 技术见闻总结

2019 年 7 月 17 日 计算机视觉life

点击上方“计算机视觉life”,选择“星标”

快速获得最新干货


本文转载自SIGAI


2019年的CVPR在美国 长滩(long beach)召开,为期5天,从6.16-6.22。长滩是一个风景优美,空气清新的临海城市,很适合开会之后的旅游。

接下来我简单叙述一下会议这几天我看到的,或者我感兴趣的一些话题,还有一些会场的氛围和体验。


目标检测的发展


头两天主要是各种workshop和tutorials,主要有各种大佬在会议室宣传自己的工作和理念等等。我去101听了facebook AILab的大佬讲了讲computer vision的工作,主要是从faster rcnn讲到mask rcnn,再加上最新的mesh rcnn。这个topic人很多,我只能站门口。

这个topic主要讲了目标检测的发展,其实就是宣传facebook自己的工作,从Faster R-CNN开始回顾,Faster R-CNN主要是2D的目标检测,算是目标检测早期最有影响力的工作之一。个人感觉自从Faster RCNN开始,Kaiming, Ross等人沿着Faster RCNN做了一系列工作,同时也很注重Faster RCNN的宣传,到今天为止,类似于Faster RCNN这种anchor based的方法已经深入人心,同时基于Faster RCNN的方法已经应用到各种目标检测行业,比如人脸检测,文字检测,行人检测,遥感图像检测等等。


接下来演进到FPN和Mask R-CNN, FPN使用特征金字塔分尺度检测目标,Mask R-CNN在FPN的基础上,多出了一支Mask去对每个目标进行实例分割。再接下来是宣传他们最新的Mesh RCNN, 主要是做三维目标检测和形状分析。


Mesh RCNN主要用于三维目标检测,可以从单张输入图像中检测不同物体,并预测出每个物体对应的三角网格,将二维目标检测的能力成功地拓展到了三维目标检测和形状预测。这一方法基于Mask R-CNN改进而来,增加了网格预测分支来输出高分辨的目标三角网格。

这一模型主要分为三个部分,包括了预测box和mask的检测分支、预测体素的分支和mesh优化分支。受到RoIAlign的启发,研究人员在网格预测中加入了VertAlign将输入图像与特征进行对应。体素预测分支与box/mask预测分支的输入相同,都使用了与图像对齐的特征。模型最后将目标检测、语义分割损失与网格预测损失结合起来一同对网络进行端到端的训练和优化。


可以看到真正的大牛组做的工作都是一脉相承的,而不是东一锤子西一棒。下图是网上的图,大致可以把facebook这几个工作串起来。


两个新的数据集


还有是旷视 的workshop。主要是宣传两个数据集,Crowd Human和Objects 365。同时举办了比赛,获奖者分别是百度和头条。这两个数据集和对应的比赛都是检测相关的,感觉也挺有意思的,旷视在检测领域思考得一直比较细,经常拿COCO冠军,大家都知道的。


第一个数据集是crowd human,主要的问题是在超级密集的人群下进行人的检测,基于anchor的方法表现不好,因为nms会互相杀掉很多框,因此旷视希望通过这个数据集引出一些新的算法。


第二个数据集是Objects 365。这个数据集比coco更大,更强。大家都知道coco有80个类别,而objects365有365个类别,同时数据量达到了200万张,而且在objects365上预训练的模型只需要在coco上finetune几个epoch,就能够超过coco上训练的表现,足以证明泛化能力强。这个数据集也能引出一些问题,比如现在很多方法号称可以有用,但是是否仅仅因为数据量不够大,当数据量够大的时候,有哪些方法是真正能够work的呢?


有意思的Poster


第3-5天是主会场,各种oral文章讲解,poster讲解都在这三天,可以亲自问作者关于文章的细节,并认识各种大佬和老师等等,很多同学趁这个机会和老师套磁,从而可以增加自己申请phd的机会。贴几个我喜欢的poster~


《Leraning from Synthetic Data for Crowd Counting in the wild》是做crowd counting的,这个task个人感觉蛮有意思,就是通过一张图里分析有多少人,这个领域做法一般简单粗暴,直接回归heatmap然后求和,这篇文章有意思的地方在于作者先通过物理引擎合成出密集的人的场景(侠盗猎车玩过吧,和那个差不多),然后通过domain adaptation的方法将合成数据风格迁移到真实数据上,可以取得还不错的效果。


《Point in, Box out:Beyond Counting Persons in Crowds》这篇文章也是做crowd counting的,主要思想是直接通过回归heatmap不够准,毕竟很多人头挨得很近的话heatmap会糊成一片,他通过预测bounding box的方法做人群计数,感觉和detection有点类似吧。

《Visual Question Answering as Reading Comprehension》这篇文章是做VQA视觉问答的,个人觉得也挺有意思,VQA在之前也有很多工作,不过没有考虑到知识库,即一张图中如果有一只猫一只狗,传统vqa只能回答,图里有几只猫?这个问题通过图内信息可以得到,但是如果更进一步的问题:图里哪个动物会爬树?这个问题涉及到知识库,传统vqa无法回答,这篇文章利用了额外的知识库来辅助回答这些问题,做法还是挺新的。

poster总结


第一个是现在华人在CV领域真的是顶了半边天,很多poster前都是华人,大部分情况下直接说中文就行了,非常方便。


第二个是现在学术界很多半监督,无监督的话题很受欢迎,工业界主要还是做一些比较硬核的东西,也不能说谁好谁坏,只能说以后工业界和学术界可能感兴趣的点会越来越不一样。最简单的例子比如是domain adaptation, 这个算半监督学习吧,今年domain adaptation非常火, 因为不需要依赖大量标注资源,但是工业界不认可这个,毕竟公司不差标数据的钱,而且公司的诉求是精度越高越好。而学术界会思考的远一点,但是往往不太实用。


第三个点是 现在多学科交叉的东西也比较受欢迎,毕竟深度学习发展这么久了,很多老的话题已经做的很好了,需要拓展新问题。比如以前很多独立的任务现在越来越倾向于放在一个网络中去end to end 处理,像行人检测和reid,文字检测和识别,一些low-level的工作也是,比如超分辨率和去噪等。


其它有意思的topic


英伟达的topic,主要讲GAN,我对GAN也挺感兴趣的,发现人同样很多...英伟达在GAN领域做了很多工作,其中包括人脸生成。

别的还有很多tutorial,分布在不同的房间,topic也是各种各样,比如3D生成,语义分割,自动驾驶等等。


收获与感想


CVPR一周之旅过得很快,每天都很匆忙,很累但是很充实。作为一个学生,我来CVPR主要的收获是认识了一群同龄人中的大佬和一些更加senior的工业界的人和教授。感觉学生来CVPR无论是对工作,申请还是同行交流都很不错。现在CVPR上很多公司都公开招人的。对于已经在工业界的人,来CVPR个人感觉主要是和同行交流,招人和宣传自己的工作。因此我觉得无论是谁,来CVPR都能收获很多。


目前计算机视觉十分火热,大家都对这个行业充满憧憬,希望它能持续火热下去,但是未来怎么样依旧是一个看不清的东西。一方面来说计算机视觉的研究过去几年是个爆发式的突破,很多东西真的是从0-1建立起来的,比如检测,分类,分割,而现在研究往往新问题没有以前多了,很多都是小修小补,因为很多问题基于CNN已经取得了不错的效果。另一方面来说计算机视觉在企业飞速落地,越来越多的项目需要计算机视觉应用人才,因此提供了很多就业岗位。


不管怎么样,只有提高自己的实力,持续做出有影响力的工作,才会被人记住你的名字。

在格里菲斯天文台,晚上可以鸟瞰整个洛杉矶。


交流群

欢迎加入公众号读者群一起和同行交流,目前有SLAM、算法竞赛、图像检测分割、人脸人体、医学影像、自动驾驶、综合等微信群(以后会逐渐细分),请扫描下面微信号加群,备注:”昵称+学校/公司+研究方向“,例如:”张三 + 上海交大 + 视觉SLAM“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告,否则会请出群,谢谢理解~

从零开始学习三维视觉核心技术SLAM,扫描查看介绍,3天内无条件退款

学习切忌单打独斗,一个良好的学习圈子能够帮助你快速入门,交流讨论才能少走弯路,快速进步!


如有AI领域实习、求职、招聘、项目合作、咨询服务等需求,快来加入我们吧,期待和你建立连接,找人找技术不再难!

推荐阅读

CVPR2019 | Decoders 对于语义分割的重要性
CVPR2019 | R-MVSNet: 一个高精度高效率的三维重建网络
CVPR2019 | SiamMask:视频跟踪最高精度
CVPR 2019 | 用异构卷积训练深度CNN:提升效率而不损准确度
CVPR 2019 | 人大 ML 研究组提出新的视频测谎算法
CVPR2019 | 医学影像:MIT 利用学习图像变换进行数据增强
CVPR 2019 | GeoNet:基于测地距离的点云分析深度网络
CVPR2019 | 中科大&微软开源:姿态估计新模型HRNet
CVPR 2019 | 京东提出 ScratchDet:随机初始化训练SSD目标检测器
CVPR 2019 | 微软亚研院提出用于语义分割的结构化知识蒸馏
CVPR2019 | 6D目标姿态估计,李飞飞等提出DenseFusion
CVPR 2019 | PointConv:在点云上高效实现卷积操作
CVPR 2019 | 图像压缩重建也能抵御对抗样本
CVPR 2019 | 神奇的超分辨率算法DPSR:应对图像模糊降质
综述 | CVPR2019目标检测方法进展
CVPR 2019 | 端到端的投影光度补偿
TPAMI 2019 | 鲁棒RGB-D人脸识别
ICRA 2019 论文速览 | SLAM 爱上 Deep Learning
ICRA 2019 论文速览 | 传统SLAM、三维视觉算法进展
最新AI干货,我在看   
登录查看更多
2

相关内容

目标检测,也叫目标提取,是一种与计算机视觉和图像处理有关的计算机技术,用于检测数字图像和视频中特定类别的语义对象(例如人,建筑物或汽车)的实例。深入研究的对象检测领域包括面部检测和行人检测。 对象检测在计算机视觉的许多领域都有应用,包括图像检索和视频监视。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
CVPR 2020 最佳论文与最佳学生论文!
专知会员服务
35+阅读 · 2020年6月17日
【CVPR 2020-商汤】8比特数值也能训练卷积神经网络模型
专知会员服务
25+阅读 · 2020年5月7日
【天津大学】风格线条画生成技术综述
专知会员服务
31+阅读 · 2020年4月26日
3D目标检测进展综述
专知会员服务
191+阅读 · 2020年4月24日
【中科院自动化所】视觉对抗样本生成技术概述
专知会员服务
35+阅读 · 2020年4月15日
近期必读的9篇 CVPR 2019【视觉目标跟踪】相关论文和代码
2019年人工智能行业现状与发展趋势报告,52页ppt
专知会员服务
120+阅读 · 2019年10月10日
已删除
将门创投
8+阅读 · 2019年6月13日
已删除
将门创投
4+阅读 · 2019年6月5日
论文盘点:CVPR 2019 - 文本检测专题
PaperWeekly
14+阅读 · 2019年5月31日
CVPR 2018 最酷的十篇论文
AI研习社
6+阅读 · 2019年2月13日
【泡泡一分钟】泡泡一分钟一周总结(20181008-20181014)
泡泡机器人SLAM
4+阅读 · 2018年10月26日
从R-CNN到Mask R-CNN!
全球人工智能
17+阅读 · 2017年11月13日
从R-CNN到Mask R-CNN
机器学习研究会
25+阅读 · 2017年11月13日
计算机视觉专题分享总结(附PPT)
机器学习读书会
42+阅读 · 2017年7月6日
Arxiv
7+阅读 · 2018年12月10日
Deep Randomized Ensembles for Metric Learning
Arxiv
5+阅读 · 2018年9月4日
Arxiv
4+阅读 · 2017年11月14日
VIP会员
相关VIP内容
CVPR 2020 最佳论文与最佳学生论文!
专知会员服务
35+阅读 · 2020年6月17日
【CVPR 2020-商汤】8比特数值也能训练卷积神经网络模型
专知会员服务
25+阅读 · 2020年5月7日
【天津大学】风格线条画生成技术综述
专知会员服务
31+阅读 · 2020年4月26日
3D目标检测进展综述
专知会员服务
191+阅读 · 2020年4月24日
【中科院自动化所】视觉对抗样本生成技术概述
专知会员服务
35+阅读 · 2020年4月15日
近期必读的9篇 CVPR 2019【视觉目标跟踪】相关论文和代码
2019年人工智能行业现状与发展趋势报告,52页ppt
专知会员服务
120+阅读 · 2019年10月10日
相关资讯
已删除
将门创投
8+阅读 · 2019年6月13日
已删除
将门创投
4+阅读 · 2019年6月5日
论文盘点:CVPR 2019 - 文本检测专题
PaperWeekly
14+阅读 · 2019年5月31日
CVPR 2018 最酷的十篇论文
AI研习社
6+阅读 · 2019年2月13日
【泡泡一分钟】泡泡一分钟一周总结(20181008-20181014)
泡泡机器人SLAM
4+阅读 · 2018年10月26日
从R-CNN到Mask R-CNN!
全球人工智能
17+阅读 · 2017年11月13日
从R-CNN到Mask R-CNN
机器学习研究会
25+阅读 · 2017年11月13日
计算机视觉专题分享总结(附PPT)
机器学习读书会
42+阅读 · 2017年7月6日
Top
微信扫码咨询专知VIP会员