如何在计算机视觉领域做开创性的前沿研究？

2022 年 6 月 9 日 微软研究院AI头条

（本文阅读时间：11分钟）

全球人工智能领域最具学术影响力的顶级会议之一 CVPR 2022召开在即。为了促进计算机视觉领域前沿研究的分享与交流，推动相关技术进步与发展，近年来微软亚洲研究院每年都会举办CVPR论文分享会。今年的CVPR 2022 论文分享会于4月23日圆满落幕。此次分享会由微软智能信息处理西安交通大学实验室主办，微软亚洲研究院承办，中国计算机学会计算机视觉专委会、中国图象图形学会视觉大数据专委会、中国计算机学会计算机女计算机工作者委员会、中国图象图形学会女科技工作者工作委员会协办。

本次活动不仅汇聚了来自清华大学、复旦大学、北京大学、中国科学技术大学、华中科技大学、西安交通大学、东南大学等高校的教授、研究员，还有来自微软亚洲研究院、粤港澳大湾区数字经济研究院等企业研究院的科研人员。20余位讲者通过网络结构、自监督+多模态预训练、多模态应用、3D 视觉、图像和视频生成、检测分割这六大主题，分享了他们在 CVPR 2022 上发表的最新成果。每个主题的论文分享后，今年的分享会还首次设置了主题讨论环节，讲者们就该方向进行了针对性的讨论，探讨整个计算机视觉领域的现状与未来，同时也对观众的问题做出了解答。

此外，CVPR 2022 论文分享会还新增了中场主旨演讲环节，CVPR 2022 程序主席、便利蜂 CTO 和首席科学家华刚博士带来了以“You and Your Research Career with Computer Vision”为题的精彩报告。几位历年视觉顶会最佳论文的斩获者也一同共话“好论文是怎么炼成的”。

接下来，让我们一起回顾一下 CVPR 2022 论文分享会的精彩内容吧！

CVPR 2022主席倾情分享“如何让自己与领域共舞”

华刚博士首先从自己领导便利蜂人工智能研究院的实际科研经验出发，从较高的视角探讨了“计算机视觉的杀手级应用是什么”。华刚博士总结，“它可以数字化物理世界，从社会经济的层面可以给不同的工业、商业领域的信息化做出关键性的贡献。从数字经济、数字生产力的角度来看，它也会对传统工业行业的生产力提高发挥必不可少的关键作用。”

在回顾了过去20年的经济发展之后，华刚博士表示互联网经济是最有活力并产生了巨大财富的一个领域，其背后的高生产效率，得益于其自身促成的数字化世界。在这个数字化的世界里，我们可以做各种各样的数字决策，这些数字化决策最后会形成相应的工作任务在物理世界得到执行。未来数字生产力的重点，是将多数传统产业的线下生产、运营的物理过程的信息数字化，形成数字化的映射，并在进一步完成数字化决策后回到物理世界进行相应的工作任务执行。在这个信息数字化的过程中，计算机视觉将发挥巨大且无可替代的作用。

华刚博士为 CVPR 2022 论文分享会作主旨演讲

而后，华刚博士就在当下这个计算机视觉的黄金时代里“如何探索自己的计算机视觉研究生涯”进行了分享。他表示，对于一个人的科研生涯而言，第一位是做研究，在研究社群最好的会议和期刊上发表的论文，基本上就代表了你在研究社群中的地位。也就是说，你发表的论文是你在研究领域的形象表征；另一方面则是你对研究社群的服务，例如当审稿人等。科研生涯的评判标准是你对整个领域的影响力，即你给这个研究社群带来了什么改变，包括知识层面和服务层面。而对于“科研生涯”和“职业生涯”的联系，华刚博士认为他们很大程度上是并行的，两者可以互相帮助与促进。

华刚博士接下来还讨论了“工业界研究”与“学术界研究”的关系。他指出，两者的主要区别在于经费的来源，在学术界，经费主要来自政府的税收，而在工业界，研究的经费主要来自于公司的利润。那么两者之间的桥梁是什么？华刚博士提到，我们需要建立一条路径，使研究可以产生一些商业上的影响。而对于“工业界是否也可以做基础研究”，华刚博士的回答是肯定的，但他也强调需要建立一个“可以将基础研究转化为商业目标”的架构。做基础研究并不意味着可以很长时间没有结果，需要设置一些里程碑，在完成最终目标地过程中持续产出阶段性的研究成果，将研究项目持续地推进到最终目标。

最后，华刚博士分享了建立自己的主研究社群（Home research community）的重要性，并为广大研究者提出了四点建议：

如果你在工业界做研究，一定要有持久性，它需要你工作之外的额外精力。
无论在公司还是在研究社群，要去理解这个系统是怎么运作的，这样会有助于你在系统内达成自己的目标。
如果在工业界，要思考如何产生商业的影响，你的研究需要设计一条可以产生实际工业影响的路线。
希望大家找到自己的主研究社群，也希望大家把计算机视觉当作自己的主研究社群。

视觉顶会最佳论文得主探讨“好论文是如何炼成的”

今年的圆桌论坛邀请到了五位历年计算机视觉顶会最佳论文的斩获者，以“好论文是怎么炼成的？”为主题，分享了他们对于“做好的论文”和“做好的研究”的理解。

巧合的是，这些历年的“最佳论文”研究具有一定的传承性。最佳论文的回顾从 ICCV 99的 3D 几何研究开始，期间穿插讨论了近两年关于高维空间低秩表达的新书《High-Dimensional Data Analysis with Low-Dimensional Models》，书中所探讨的稀疏低秩表达曾在10多年前推动了当时视觉领域最火热的方向，而此后 CVPR 12 的获奖工作，恰好是 3D 几何和低秩表达的完美结合与总结。随着深度学习时代的到来，许多经典工作大量涌现，其中就包括2015年的获奖工作 HED，该工作以及前序的 DSN 工作都在尝试探索深度网络的有效训练问题。而这一问题在2016年的 ResNet 中得到了几乎完美的解决，CVPR 2017 的最佳论文 DenseNet 则是继 ResNet 之后卷积网络的又一突破。

CVPR 2022 论文分享会现场

几位讲者除了分享了自己关于“最佳论文”背后的故事外，还就“如何发现重要的研究问题，找到正确方向”、“一个新领域的开创和发展需要什么条件、准备和时机”、“如何与同行交流，推广自己的工作”、“如何做好开源”等问题进行了广泛和深刻的探讨。

其中，屠卓文老师的工作经常很超前，在分享自己“如何发现重要的研究问题，找到正确方向”经验时，他总结：第一是要善于和导师学习；第二是要手写代码，这会帮助自己对相关内容有更强烈的印象；第三是自己的坚持。这样才会做出最具有代表性与原创性的论文。而马毅老师则特别分享了自己的“盲人摸象”观点——许多不同派别的研究，到最后我们会发现大家都只触摸到了一头大象的一部分。因此，想在自己的领域做出能够青史留名的工作，必须要了解这个领域的发展历史与思想演进。同时，也有许多研究到最后发现只是一个更复杂系统里的局部，是其它领域早已踩过的坑，因此我们不仅要了解自己的领域发生了什么，也要通过历史关注其他领域的问题。针对如何做出真的开创性的工作，他提出：第一，设计一个远大的正确的目标方向；第二，了解历史，知道与这件事情相关的来龙去脉是什么；第三，深耕相关的领域，借深度学习的话就是做学问也要越深越好、越宽越好——越深就是要去了解历史纵深，看到思想的传承，越宽就是要去了解相关领域，由点及面你才能看到大象的整体，也会有自己更独到的思想，而这可能是你一生中最有成就感的事情。

六大热门主题，共话领域现状与未来

在本次分享会上，20多位讲者从六大主题进行了论文分享和研讨。这六大主题分别是：网络结构、自监督+多模态预训练、多模态应用、3D 视觉、图像和视频生成，以及检测分割。它们也正是计算机视觉领域近年来最活跃的几个方向。

在网络结构主题中，四位讲者分别带来了 ACMix、SwinV2、CSwin 以及 RepLKNet 的分享，其中两篇论文关于视觉 Transformer，一篇关于卷积网络的“第二次增长”，另一篇则是 CNN 和 Transformer 的融合。值得一提的是，该主题的研讨很有幸汇聚了三位视觉顶级会议的最佳论文奖得主，他们在清华大学鲁继文教授的主持下，就“大模型和小模型在性质上的区别”、“高校如何参与大模型的研究”等问题进行了讨论。

在自监督+多模态预训练主题中，三位讲者分别带来了 SimMIM、BEVT 和 HD-VILLA 论文的分享，其中前两篇论文聚焦最近火热的掩码图像建模方法在图像和视频上的应用，最后一篇论文则关注多模态预训练方面的进展。随后讲者和嘉宾们针对“掩码图像建模（MIM）预训练能否像掩码语言建模（MLM）那样从大数据中获益”等问题分享了自己的观点。

在多模态应用主题中，三位讲者的工作主要涉及将语言和目标对齐、语言和视频对齐，以及语言和多模态知识对齐，完美地覆盖了目前多模态领域的核心概念：对齐，三个工作也在各层面做了非常丰富的探索。在讨论环节，嘉宾们在中科院黄岩老师的主持下就“多模态未来将产生哪些值得期待的应用场景”等问题进行了分享和讨论。

六大主题论文分享和研讨

在 3D 视觉主题中，三位讲者的论文分别关于动作捕捉，移动端三维重建，以及基于神经辐射场的三维图像生成。前两篇论文是贴合实际应用的研究，而后者则与最近几年火热的神经辐射场相关。讲者和嘉宾们在西安交通大学兰旭光老师的主持下针对“3D 视觉的杀手级应用是什么”以及“NerF 的现状与未来”等问题进行了讨论，并各自分享了自己的观点。

在图像和视频生成主题中，三位讲者分别分享了降噪扩散模型方面的最新成果 VQ-Diffusion，以及基于 Transformer 的图像修复和超分辨率方法。其中降噪扩散模型（DDPM）已有取代 GAN 成为图像生成的未来趋势，而 Transformer 则继续在底层视觉问题中攻城掠地。随后讲者和嘉宾们还针对“现在图像生成有哪些成功或者潜在的应用”，“扩散模型的未来”等问题进行了讨论。

最后一个主题是检测分割，这也是一个广受关注的领域，分享的四个工作其中之二涉及 Transformer 结构特别是其解码器在检测分割领域的应用，而另外两个则是基于传统检测分割头部网络的工作。其中，来自粤港澳大湾区数字经济研究院的张磊老师克服美国深夜三点的时差，坚持现场演讲。他分享的 DN-DETR 是这个方向的一个重要工作，也是他最近在 COCO 物体检测中取得新纪录的 DINO 方法的重要前序工作。华中科技大学王兴刚老师则分享了他们团队将掩码图像建模应用于 ViT 检测的最新工作，这也与第二个主题中备受瞩目的掩码图像建模模型相呼应。最后在主题讨论环节，活动邀请到了中科院张兆翔老师加入讨论，5位讲者和嘉宾们针对“在检测分割这样的下游任务中，网络结构是否会被 Transformer 一统天下，还是仍然会保持目前一个相对百花齐放的局面”等问题进行了精彩讨论和观点分享。

CVPR 2022 分享会聚焦了近期计算机视觉的核心方向与重要研究，为与会者们带来了深度与广度并存的分享，而讲者们也通过彼此的思想交锋获得了研究认知的刷新。欢迎大家持续关注，我们将于近期精选 CVPR 2022 的一些精彩工作，为大家带来介绍！