2020年，计算机视觉领域会有哪些新的研究方向值得提前探索？

2019 年 8 月 29 日 极市平台

加入极市专业CV交流群，与6000+来自腾讯，华为，百度，北大，清华，中科院等名企名校视觉开发者互动交流！更有机会与李开复老师等大牛群内互动！

同时提供每月大咖直播分享、真实项目需求对接、干货资讯汇总，行业技术交流。关注 极市平台 公众号，回复 加群，立刻申请入群~

本文选自知乎问答，仅用于学术交流。

侵删

2020年，计算机视觉领域会有哪些新的研究方向值得提前探索？

https://www.zhihu.com/question/330153893

知乎高赞回答

1.作者：罗浩.ZJU

https://www.zhihu.com/question/330153893/answer/721238966

2.作者：育心

https://www.zhihu.com/question/330153893/answer/740254474

结合计算机视觉、机器人领域5大顶会（CVPR/ICCV/IROS/ICRA/ECCV），以及产业界的需求，总结3个当下热门及前沿的研究领域。

三维视觉

三维视觉是传统的研究领域，但最近5年内得到快速发展。三维视觉主要研究内容有：三维感知（点云获取及处理）、位姿估计（视觉SLAM）、三维重建（大规模场景的三维重建、动态三维重建）、三维理解（三维物体的识别、检测及分割等）。

3D视觉在CV顶会上的论文比例，也在逐年增加。

视频理解

随着新型网络媒体的出现，以及5G时代的到来，视频呈现爆炸式增长，已成为移动互联网最主要的内容形式。面对于海量的视频信息，仅靠人工处理是无法完成的，因此实现视频的智能化理解则成为了亟待解决的问题。

自2012年，深度学习在图像理解的问题上取得了较大的突破，但视觉理解比图像的目标检测识别要复杂的多。这是因为视频常有许多动作，动作往往是一个复杂概念的集合，可以是简单的行为，但也可能是带有复杂的情绪、意图。举个简单的例子，对一段视频分类，与对一幅图像分类，哪个更容易一些？

从最近几年知名的计算机视觉竞赛，也可以看出，图像层面的竞赛在减少，视频层面的竞赛在

增加。

多模态融合

多模态融合的知识获取是指从文本、图片、视频、音频等不同模态数据中交叉融合获取知识的过程。

随着计算机视觉越来越成熟之后，有一些计算机视觉解决不了的问题慢慢就会更多地依赖于多个传感器之间的相互保护和融合。

小结

怕什么真理无穷，进一寸有一寸的欢喜！

3.作者：商汤科技SenseTime

https://www.zhihu.com/question/330153893/answer/721471978

谢邀！商汤及联合实验室CVPR 2019论文精选，研究一下？

商汤及商汤联合实验室入选CVPR 2019的代表性论文，从五大方向阐释计算机视觉和深度学习技术最新突破，以下是从论文中提取的精华部分~

高层视觉核心算法——物体检测与分割

代表性论文：基于混合任务级联的实例分割算法

对于很多计算机视觉任务来说，级联是一种经典有效的结构，可以对性能产生明显提升。但如何将级联结构引入实例分割的任务仍然是一个开放性问题。简单地将物体检测的级联结构Cascade R-CNN与经典的实例分割算法Mask R-CNN进行结合，带来的提升比较有限。

在这篇论文中，我们提出了一种新的框架Hybrid Task Cascade (HTC)。该框架是一个多阶段多分支的混合级联结构，对检测和分割这两个分支交替地进行级联预测，除此之外，我们还引入了一个全卷积的语义分割分支来提供更丰富的上下文环境信息。HTC在COCO数据集上相对Cascade Mask R-CNN获得了1.5个点的提升。基于提出的框架，我们获得了COCO 2018比赛实例分割任务的冠军。

代表性论文：基于特征指导的动态锚点框生成算法

锚点框（Anchor）是现代物体检测技术的基石。目前主流的物体检测方法大多依赖于密集产生静态锚点框的模式。在这种模式下，有着预定义的大小和长宽比的静态锚点框均匀的分布在平面上。

本文反思了这一关键步骤，我们提出了一种基于特征指导的动态锚点框生成算法，该算法利用语义特征来指导锚点框生成的过程，具有高效率和高质量的特点。本算法可以同时预测目标物体中心区域和该区域应产生的锚点框的大小和长宽比，以及根据锚点框的形状来调整特征，使特征与锚点框相吻合，从而产生极高质量的动态锚点框。

本方法可以无缝使用在各种基于锚点框的物体检测器中。实验表明本方法可以显著提高三种最主流的物体检测器（Fast R-CNN, Faster R-CNN, RetinaNet）的性能。

底层视觉核心算法——图片复原与补全

代表性论文：基于网络参数插值的图像效果连续调节

图像效果的连续调节在实际中有着广泛的需求和应用, 但是目前基于深度学习的算法往往只能输出一个固定的结果，缺乏灵活的调节能力来满足不同的用户需求。

针对这个问题, 本文提出了一种简单有效的方式来达到对图像效果的连续光滑的调节，而不需要进一步繁杂的训练过程。该方法能够在许多任务上得到应用, 比如图像超分辨率，图像去噪，图像风格转换，以及其他许多图像到图像的变换。

具体地，我们对两个或多个有联系的网络的参数进行线性插值，通过调节插值的系数，便可以达到一个连续且光滑的效果调节。我们把这个在神经网络的参数空间中的操作方法称为网络参数插值。本文不仅展示了网络参数插值在许多任务中的应用，还提供了初步的分析帮助我们更好地理解网络参数插值。

代表性论文：基于光流引导的视频修复

本文关注视频中的修复问题，虽然近年来图片修复(Image Inpainting)问题取得了很大的进展，可是在视频上完成像素级的修复仍然存在极大的挑战。其困难主要在于：1）保证时序上的连续型；2）在高分辨率下实现修复；3）降低视频对于计算的开销。

本文致力于解决这三个问题，同时尽可能保证视频的清晰度。在研究中我们发现，保证视频的时序一致性，对于视频修复任务来说非常重要，这不仅仅保证了修复后的视频能够有良好的观看体验，同时还帮助我们从视频本身来抽取真实的像素块来实现更加高效地修复。

所以我们的框架主要由两部分组成，第一部分是通过深度神经网络实现光流的补全，之后通过补全的光流在整个视频间做像素的传导，从而形成一条在时序上保持一致的像素链。这样缺失的区域就可以通过它来实现修复，并且还能够保证视频的清晰度。

面向自动驾驶场景的3D视觉

代表性论文：PointRCNN: 基于原始点云的3D物体检测方法

本文首次提出了基于原始点云数据的二阶段3D物体检测框架，PointRCNN。3D物体检测是自动驾驶和机器人领域的重要研究方向，已有的3D物体检测方法往往将点云数据投影到鸟瞰图上再使用2D检测方法去回归3D检测框，或者从2D图像上产生2D检测框后再去切割对应的局部点云去回归3D检测框。而这些方法中，前者在将点云投影到俯视图上时丢失了部分原始点云的信息，后者很难处理2D图像中被严重遮挡的物体。

我们观察到自动驾驶场景中物体在3D空间中是自然分离的，从而我们可以直接从3D框的标注信息中得到点云的语义分割标注。因此本文提出了以自底向上的方式直接从原始点云数据中同步进行前景点分割和3D初始框生成的网络结构，即从每个前景点去生成一个对应的3D初始框（阶段一），从而避免了在3D空间中放置大量候选框。

在阶段二中，前面生成的3D初始框将通过平移和旋转从而规则化到统一坐标系下，并通过点云池化等操作后得到每个初始框的全局语义特征和局部几何特征，我们将这两种特征融合后进行了3D框的修正和置信度的打分，从而获得最终的3D检测框。

在提交到KITTI的3D检测任务上进行官方测试时，我们提出的方法在只使用点云数据的情况下召回率和最终的检测准确率均超越了已有的方法并达到了先进水平。目前我们已将该方法的代码开源到了GitHub上。

面向AR/VR场景的人体姿态迁移

代表性论文：基于人体本征光流的姿态转换图像生成

本文主要关注人体姿态转移问题，即在给定一幅包含一个人的输入图像和一个目标姿态的情况下，生成同一个人在目标姿态下的图像。我们提出利用人体本征光流描述不同姿态间的像素级对应关系。

为此，我们设计了一个前馈神经网络模块，以原始姿态和目标姿态作为输入，迅速对光流场进行估计。考虑到真实光流数据难以获取，我们利用3D人体模型拟合图像中的人体姿态，生成对应姿态变化的光流场数据，用于模型训练。

在该光流预测模块的基础上，我们设计了一个图像生成模型，利用本征光流对人体的外观特征进行空间变换，从而生成目标姿态下的人体图像。我们的模型在DeepFashion和Market-1501等数据集上取得了良好的效果。

无监督与自监督深度学习前沿进展

代表性论文：基于条件运动传播的自监督学习

本文提出一种从运动中学习图像特征的自监督学习范式。1）在自然场景中，物体的运动具有高度的复杂性，例如人体和常见动物都具有较高的运动自由度。2）同时，从单张图片中推测物体的运动具有歧义性。现有基于运动的自监督学习方法由于没有很好地解决这两个问题，因而未能高效地从运动中学习到较好的图像特征。

为此，我们提出了条件运动传播这个自监督学习任务。训练时，我们将单张图像作为输入，将目标运动场中抽样出来的稀疏运动场作为条件，训练神经网络去恢复目标运动场。这样训练完的图像编码器可以用来作为其他高级任务的初始化。我们在语意分割、实例分割和人体解析等任务中相比以往自监督学习方法获得了较大提升。

经过分析，我们发现条件运动传播任务从运动中学习到了物体的刚体性、运动学属性和一部分现实世界中的物理规律。利用这些特性，我们将它应用到交互式视频生成和半自动实例标注，获得了令人满意的效果；而整个过程，没有用到任何人工的标注。

4.作者：Shawn Tsien

https://www.zhihu.com/question/330153893/answer/729391245

视觉问题，由三大块组成：图像分割、三维重建、模式识别。目前这个行业的有效进展，离彻底解决视觉，大约只完成了30%左右，所以还有很多事情可做，但真的深入进去，会发现很难找到一个研究方向。比如李飞飞几年前就已经“遥遥领先”地在研究文字转视频了，那你再研究图像分割，是不是有点太落伍了？到时候论文能否发表都成问题，按时毕业、职称晋升，这才是最重要的事。所以选题都把眼光都放在高大上的、能吸引眼球的课题上。

视觉本身是个工程问题，但却成了学术界的热门方向。解决工程问题，需要从头到尾的完整方案，而学术界习惯各自解决一小步。虽然大问题必然由很多小问题组成，但要求这些小问题都在同一条线上，而且中间不能有任何一个环节缺失。显然学术界的无分工、无统一目标、无明确责任的状态，使得研究更像是一场娱乐狂欢。众人像一群野马一样乱跑，新来的马心里没底，很怕落伍，只看哪里马多就往哪里跑，而领头的马本来心里没底，但一看后面跟来这么多，就以为自己跑对了方向。这样的研究方式，在数学、微观、宏观这些极少人涉足、暂时用不到的方向，确实能取得了一些成果。比如古希腊几何学家阿波洛尼乌斯总结了圆锥曲线理论，一千八百年后由德国天文学家开普勒将其应用于行星轨道理论，阿基米德的积分要等两千年才和牛顿、莱布尼茨汇合成完整的微积分，所以谁知道眼前这篇论文啥时候派上用场呢？而视觉不一样，这是眼前急等要下锅的米，等不及下一届蟠桃盛会。

要想彻底解决视觉问题，眼前是指望不上学术界了，真要等学术界进化，可能还得几百年，而工业界又在等学术界的结果，所以似乎还遥遥无期，但不妨碍继续写论文。图像分割是三块中最难的一块，却是听起来最low的一块，当然我所指通用分割，所以选这块来写论文，风险太大。三维重建相对最简单，但已经走过半个多世纪了，SLAM也基本跑到了山穷水尽的悬崖边。而模式识别却是风光独好，因为这块的工作量最大，涉及的方面很多，难度却不大，适合写论文。由于基础缺失，所以不可能获得精确的结果，但也尽量要用最复杂的数学公式，这样更利于论文发表，对啦，还要好好利用深度学习这个炼丹炉。最后祝大家好运，论文按时发表、按时毕业或评上职称。

你对这个问题怎么看呢？可以评论你的想法～

-完-

*延伸阅读

添加极市小助手微信（ID : cv-mart），备注：研究方向-姓名-学校/公司-城市（如：目标检测-小极-北大-深圳），即可申请加入目标检测、目标跟踪、人脸、工业检测、医学影像、三维&SLAM、图像分割等极市技术交流群，更有每月大咖直播分享、真实项目需求对接、干货资讯汇总，行业技术交流，一起来让思想之光照的更远吧~