CVPR2022最佳论文奖项出炉！苏黎世联邦理工等获最佳论文，同济阿里等获最佳学生论文

转载机器之心报道

机器之心编辑部

刚刚，CVPR 2022 正式公布了最佳论文、最佳学生论文等奖项。来自 ETH Zurich、华盛顿大学、佐治亚理工学院、捷克理工大学多个机构的研究者共同获得了最佳论文奖，来自阿里巴巴和同济大学的研究者获得了最佳学生论文奖。此外，斯坦福大学教授李飞飞获得了本次大会的 Thomas S. Huang （黄煦涛）纪念奖。

2022 年，CVPR 大会的投稿量达到 8161 份，相比 2021 年度的 7093 份提交增长了 15%。其中 44.59% 的作者来自中国，排在第二名的是美国，占据 20.65%。

图源：推特用户 @Jared Heinly。

经过三个多月的评审工作，大会最终共有 2064 篇论文被接收，接收率为 25.28%，高于去年的 23.6%。其中有 342 份被选为 Oral 论文，1721 份被选为 Poster 论文。此外，今年的 review 数量为 25804，rebuttal 数量为 5884。

图源：推特用户 @raven。

其中，国内有大量论文被接收。如据机器之心了解，商汤科技及联合实验室共有 71 篇论文被大会接收，其中近四分之一被录用为 Oral。

自新冠疫情流行以来，今年 CVPR 还是首次线下举办。据主办方统计，截至大会开幕，共有 9981 人注册参会，其中 5641 人现场参会，4340 人以线上方式参会。

今年的大会特别纪念了孙剑博士：

在主会议的最开始，CVPR 2022 即公布了本次大会的全部奖项。来自 ETH Zurich、华盛顿大学、佐治亚理工学院、捷克理工大学多个机构的研究者共同获得了最佳论文奖，来自阿里巴巴和同济大学的研究者获得了最佳学生论文奖。此外，最佳论文提名和最佳学生论文提名的奖项分别由 CMU 以及哈佛大学、谷歌研究院获得。

最佳论文

机构：ETH Zurich、华盛顿大学、佐治亚理工学院、捷克理工大学
论文地址：https://arxiv.org/abs/2112.03424

论文摘要：该研究提出了一种在 RANSAC 框架中解决困难的几何优化问题的方法。最小化问题源于将原始几何优化问题松弛化（relax）为具有许多虚假解决方案的最小问题。该研究提出的方法避免了计算大量虚假解决方案。研究者设计了一种学习策略，用于选择初始问题 - 解决方案对以用数值方法继续解决原问题。该研究通过创建一个 RANSAC 求解器来演示所提方法，该求解器通过使用每个视图中的 4 个点进行最小松弛化来计算 3 个校准相机的相对位姿。平均而言，该方法可以在 70 μs 内解决一个原始问题。此外，该研究还针对校准相机的相对位姿这一问题进行了基准测试和研究。 最佳论文提名

今年的最佳论文提名由 CMU 的研究《Dual-Shutter Optical Vibration Sensing》获得。

机构：CMU
论文地址：https://openaccess.thecvf.com/content/CVPR2022/papers/Sheinin_Dual-Shutter_Optical_Vibration_Sensing_CVPR_2022_paper.pdf

论文摘要：视觉振动测量是一种非常有用的工具，可用于远程捕捉音频、材料物理属性、人体心率等。虽然视觉上可观察的振动可以通过高速相机直接捕捉，但通过将激光束照射振动表面所产生的散斑图案的位移成像，可以从光学上放大微小且不易察觉的物体振动。在本文中，研究者提出了一种在高速（高达 63kHz）下同时检测多个场景源振动的新方法，该方法使用了额定工作频率仅为 130Hz 的传感器。他们的方法使用两个分别配备滚动和全局快门传感器的相机来同时捕捉场景，其中滚动快门相机捕捉到对高速物体振动进行编码的失真散斑图像，全局快门相机捕捉散斑图案的未失真参考图像，从而有助于对源振动进行解码。最后，研究者通过捕捉音频源（如扬声器、人声和乐器）引起的振动并分析音叉的振动模式，展示了他们的方法。

研究者用一种新颖的方法「看到」（seeing）声音。

最佳学生论文

今年获得最佳学生论文奖项的是《EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monocular Object Pose Estimation》，作者来自阿里巴巴、同济大学。

机构：阿里巴巴、同济大学
论文地址：https://openaccess.thecvf.com/content/CVPR2022/papers/Chen_EPro-PnP_Generalized_End-to-End_Probabilistic_Perspective-N-Points_for_Monocular_Object_Pose_Estimation_CVPR_2022_paper.pdf

论文摘要：利用透视点（PnP）基数从单个 RGB 图像中定位 3D 物体是计算机视觉领域一个长期存在的问题。在端到端深度学习的驱动下，近期的研究建议将 PnP 解释为一个可微分层，如此 2D-3D 点对应就可以部分地通过反向传播梯度 w.r.t. 物体姿态来学习。然而，从零开始学习整套不受限的 2D-3D 点在现有的方法下很难收敛，因为确定性的姿态本质上是不可微的。

这篇论文提出了一种用于普遍端到端姿态估计的概率 PnP 层——EPro-PnP（end-to-end probabilistic PnP），它在 SE 流形上输出姿态的分布，实质地将分类 Softmax 带入连续域。2D-3D 坐标和相应的权值作为中间变量，通过最小化预测姿态与目标姿态分布之间的 KL 散度来学习。其基本原理统一了现有的方法，类似于注意力机制。EPro-PnP 的性能明显优于其他基准，缩小了基于 PnP 的方法与基于 LineMOD 6DoF 的姿态估计以及 nuScenes 3D 目标检测基准的特定任务方法之间的差距。

EPro-PnP 方法概览。 最佳学生论文提名

今年的最佳学生论文提名由哈佛大学和谷歌研究院的论文《Ref-NeRF: Structured View-Dependent Appearance for Neural Radiance Fields》获得。

机构：哈佛大学、谷歌研究院
论文地址：https://arxiv.org/pdf/2112.03907.pdf

论文摘要：神经辐射场是一种流行的视图合成技术，它将场景表示为连续的体积函数，由多层感知器参数化，多层感知器提供每个位置的体积密度和与视图相关的散发辐射。虽然基于 NeRF 的方法擅长表征平滑变化的外观几何结构，但它们通常无法准确捕捉和再现光泽表面的外观。该研究提出了 Ref-NeRF 来解决这个问题，它将 NeRF 与视图相关的散发辐射的参数化替换为反射辐射的表征，并使用空间变化的场景属性的集合来构造该函数。该研究表明，使用法向量上的正则化器，新模型显著提高了镜面反射的真实性和准确性。此外，该研究还表明该模型对散发辐射的内部表征是可解释的，这对于场景编辑非常有用。

与以往表现最好的神经视图合成模型 mip-NeRF 相比，Ref-NeRF 显著提升了法向量（最上行）和视觉真实性（余下行）。

其他奖项

Longuet-Higgins 奖

Longuet-Higgins 奖是 IEEE 计算机协会模式分析与机器智能（PAMI）技术委员会在每年的 CVPR 颁发的「计算机视觉基础贡献奖」，表彰十年前对计算机视觉研究产生了重大影响的 CVPR 论文。该奖项以理论化学家和认知科学家 H. Christopher Longuet-Higgins 命名。今年的获奖论文为 2012 年发表的《Are we ready for Autonomous Driving? The KITTI Vision Benchmark Suite》，当时三位作者中的 Andreas Geiger 和 Philip Lenz 来自卡尔斯鲁厄理工学院， Raquel Urtasun 来自丰田工业大学芝加哥分校。

图源：推特用户 @Kosta Derpanis 论文地址：http://www.cvlibs.net/publications/Geiger2012CVPR.pdf

在本文中，研究者利用他们自己的自动驾驶平台为立体、光流、视觉测程 / SLAM 和 3D 目标检测等任务开发了一个新的具有挑战性的基准。他们的记录平台配备了 4 台高分辨率摄像机、1 台 Velodyne 激光扫描仪和 1 个 SOTA 定位系统，基准则包括 389 个立体和光流图像对、39.2km 长的立体视觉测程序列以及在杂乱场景中捕获的超过 20 万个 3D 目标注释（每张图像最多可见 15 辆车和 30 名行人）。