今日,ECCV 2020五项大奖出炉,分别是最佳论文奖、最佳论文提名奖、Koenderink奖、Mark Everingham奖、Demo奖。 在每年大奖中都最受期待的最佳论文奖这一次来到了李飞飞的三代门下! ECCV的全称是European Conference on Computer Vision(欧洲计算机视觉国际会议) ,两年一次,与ICCV和CVPR并称计算机视觉三大会议。 以下我们对各个大奖一一作介绍。
1 最佳论文奖
获奖论文:《RAFT:Recurrent All-Pairs Field Transforms for Optical Flow 》 论文作者为Zachary Teed和邓嘉,他们实为师徒二人,而邓嘉正是李飞飞的徒弟。
Zachary Teed,普林斯顿大学邓嘉门下的一名博士生,是普林斯顿视觉与学习实验室的一名成员。Zachary Teed目前的研究重点是从视频进行3D重建;包括运动,场景流和SLAM中的结构。在此之前,他曾获得圣路易斯华盛顿大学的计算机科学学士学位,并在那里获得了Langsdorf 奖学金和 McKevely研究奖。
Zachary Teed个人主页:https://zachteed.github.io/。
邓嘉,2006年本科毕业于清华大学计算机系,随后赴美国普林斯顿大学师从 Kai Li(李凯,普林斯顿大学教授,美国工程院院士)攻读博士学位。2007 年,当时李飞飞回到他的母校普林斯顿大学任职后便开始启动 ImageNet 项目,李凯教授作为支撑,将邓嘉介绍到李飞飞的实验组中。2012 年于普林斯顿大学获计算机科学博士学位。 2014 起任密歇根大学计算机科学系助理教授。2018年邓嘉在密歇根大学的时候获得了美国斯隆研究奖。邓嘉现在在普林斯顿大学视觉与学习实验室任助理教授,主要研究方向为计算机视觉和机器学习,即通过感知、认知和学习相结合来实现人类层面的视觉理解。 而邓嘉本人其实还有个更为出名的称号,那就是ImageNet的第一作者:
邓嘉是李飞飞的弟子,Zachary Teed则称得上是李飞飞的徒孙,这一次他们凭借在ImageNet之外的光流估计领域做出的不平凡研究获奖也是实至名归。以下是具体论文。
论文链接:https://arxiv.org/abs/2003.12039.pdf 代码链接: https://github.com/princeton-vl/RAFT 论文摘要: 我们介绍了一种新的光流深度网络架构——递归全对场变换(RAFT)。RAFT提取每个像素特征,为所有像素对构建多尺度4D相关体,并通过一个循环单元迭代更新流场,该单元执行相关体积的查找。 RAFT达到了SOTA的性能。在KITTI上,RAFT的F1-all误差为5.10%,比已知的最佳结果(6.10%)减少了16%。 在Sintel上,RAFT获得的end-point-误差为2.855像素,比已知最佳结果(4.098像素)减少了30%。此外,RAFT算法具有较强的跨数据集泛化能力,在推理时间、训练速度、参数计数等方面具有较高的效率。
2 最佳论文提名奖 今年有两篇论文获得了最佳论文提名奖:
最佳论文提名一:《Towards Streaming Image Understanding》
论文链接:https://arxiv.org/abs/2005.10420.pdf
论文摘要: 实体感知是指一个自主的主体感知其所处环境从而能够(重新)行动的能力。智能体的响应很大程度上取决于其处理pipeline的延迟。虽然过去的工作已经研究了算法在延迟和准确度之间的权衡,但是还没有一个明确的指标来比较不同的方法沿着帕累托最优的延迟精度曲线。 我们指出了标准离线评估和实时应用程序之间的一个差异:当一个算法完成对特定图像帧的处理时,周围的世界已经发生了变化。为了达到这些目的,我们提出了一种方法,将延迟和准确度统一到一个用于实时在线感知的指标中,我们称之为流式准确性(streaming accuracy)。 此指标背后的关键洞察是在每个时刻联合评估整个感知堆栈的输出,迫使堆栈考虑在进行计算时应忽略的流数据。更广泛地说,基于这个指标,我们引入了一个元基准,它系统地将任何图像理解任务转换为流图像理解任务。针对城市视频流中的目标检测和实例分割,提出了一种具有高质量和时间密集标注的数据集。我们提出的解决方案及其实证分析证明了许多令人惊讶的结论: (1) 在帕累托最佳延迟精度曲线上,存在一个最优点,最大限度地提高流媒体的准确性; (2) 异步跟踪和未来预测自然而然地成为支持流式图像理解的内部表示形式; (3)动态调度可用于克服时间混叠,产生一个矛盾的结果,即有时通过闲置和“无所事事”来最小化延迟。 最佳论文提名奖二: 《NeRF:Representing Scenes as Neural Randince Fields for View Synthesis》
论文链接:https://arxiv.org/pdf/2003.08934.pdf
论文摘要: 我们提出了一种通过使用稀疏输入视图集优化底层连续体积场景函数来获得合成复杂场景新视图的方法,这种方法取得了SOTA结果。
我们的算法使用一个全连接(非卷积)的深度网络来表示场景,其输入是一个单连续的5D坐标(空间位置(x,y,z)和观察方向(θ,φ)),其输出是该空间位置的体积密度和视景相关的发射辐射。我们通过查询沿相机光线的5D坐标来合成视图,并使用经典的体积绘制技术将输出的颜色和密度投影到图像中。因为体积绘制是自然可微的,所以优化表征的唯一输入是一组已知相机姿态的图像。我们描述了如何有效地优化神经辐射场,以渲染具有复杂几何和外观的真实感场景的新视图,并展示了优于先前神经渲染和视图合成的结果。视图合成结果最好以视频形式查看,因此我们敦促读者观看我们的补充视频,以便进行令人信服的比较。