【泡泡图灵智库】通过时间与空间上的对应关系建立起立体匹配与光流的联系(CVPR)

2019 年 7 月 10 日 泡泡机器人SLAM

泡泡图灵智库,带你精读机器人顶级会议文章

标题:Bridging Stereo Matching and Optical Flow via Spatiotemporal Correspondence

作者:Hsueh-Ying Lai,Yi-Hsuan Tsai,Wei-Chen Chiu

来源:CVPR 2019

编译:杨宇超

审核:谭艾琳

欢迎个人转发朋友圈;其他机构或自媒体如需转载,后台留言申请授权


摘要

       大家好,今天为大家带来的文章是——Bridging Stereo Matching and Optical Flow via Spatiotemporal Correspondence, 该文章发表于CVPR 2019。


        立体匹配和光流估计是场景理解的两项基本任务,分别对应于空间上的三维和时间上的运动。由于获取大规模地面真实数据的资源有限,现有的方法主要集中在无监督设置上。为了构建一个自学习的目标,相互关联的任务常常联系在一起,形成一个联合的框架。然而,先前的工作通常为每个任务使用独立的网络,因此不允许学习跨模型的共享特性表示。本文设计了一个网络来同时估计光流和立体匹配,并通过学习共享特征表示,证明了这两个任务是相互有益的。此外,还构建了一个无监督学习框架,该框架基于时间相邻的立体对对两个任务之间的几何连接进行建模,这种类型的数据随着立体摄像机的普及而易于使用。在KITTI基准数据集上,证明了本文方法在无监督深度和光流估计方面都优于几种最先进的基线。


主要贡献

    1.提出了一个单一的和有原则的网络,用于联合估计光流和立体匹配,以解释它们的共享表示,其中的共同目标是找到图像之间的像素对应关系。

    2.在联合学习过程中引入几何约束,为一致性建模提供了有效的信号,并将其作为无监督训练的目标。

    3.提出了一种在单一框架下对两项任务进行联合优化的有效训练方案,并证明了这两项任务是相辅相成的。


算法流程

        1、整体结构描述

 图1 本文模型

      如图1所示,本文的模型以时间相邻的立体对为输入,通过几何连接估计每一对的对应映射,从而将立体匹配和光流通过多次重建架起桥梁,形成一个循环。

 图2 方法的整体结构

      图2为该方法的总体结构。该框架由一个单一的模型P组成,它根据立体匹配和光流的两个输入图像的顺序估计密集的对应映射。每一对都可以以不同的图像顺序输入P模型,因此,可以根据每对得到的两个扭曲函数W,对两个重构损失Lrec进行优化。这两个任务的区别在于:(1)只使用左右一致性Llr来稳定立体匹配部分;(2)重建损失采用两个相反方向对应图导出的遮挡图,仅用于求解光流大遮挡区域。

 图3 前后帧关系示意图

      图3为连接立体对与后向帧关系的示意图。可以根据输入对及其重构方向估计任意方向的对应映射。具体表达公式如下所示:

左右视图的正向/反向光流图也可以使用本文的网络来估计:

利用这些像素对应关系,本文的目标是基于一个扭曲函数w重构一个给定对应立体对的帧或其时间邻接的帧,例如,帧Irt可以重构为:

        2、光流的遮挡估计

       在训练过程中,会有一些遮挡区域只在t帧可见,而在t + 1帧没有对应的像素,因为相机或物体可能有较大的运动。这就导致了重建图像与目标图像在外观上不一致的扭曲过程。

       为了解决遮挡问题,本文使用前后一致性检查来定位潜在的遮挡区域。更精确地说,将扭曲操作应用于反向映射及其对应的正向映射。

        2、无监督的损失函数

       重建损失。重建损失Lrec类似于在[9]中使用的Lrec,但有遮挡感知约束。具体如下所示:        

       平滑损失。对于平滑损失的Lsm,本文采用了[25]中引入的公式,该公式鼓励对应映射局部光滑,同时保持边缘与图像结构对齐:

       左右对应一致性损失。为了提高对应图估计的精度,平衡左右估计的性能,不仅要检查左右重建的一致性,还要检查左右对应关系。与遮挡检测相似,本文的左右一致性损失Llr是通过相互扭曲重构对应映射对,计算绝对L1差分损失而得到的。在[26]之后,这个一致性术语只在立体对上使用:

        2-Warp一致性损失。为了增强立体匹配和光流估计的结构,引入了一种新的2-wrap一致性损失。通过光流和立体面两次扭曲图像。如图4所示,本文研究了三种可能的2-warp操作。

 图3 三种可能的2-wrap操作

        其中一个可能性具体计算方式如下所示:

        总体损失函数,如下所示:

主要结果

        1、深度估计的结果

        如表1所示,将本文的结果与最先进的方法进行了比较[24、9、27]。与相同设置下的[9]相比,本文模型考虑了流量和立体对,在所有指标上都表现得更好。注意,在训练所有模型时使用相同数量的训练数据进行公平比较。与本文的变体相比,添加在同一模型中与立体对共同学习的流对可以很大程度改进基本模型(即,仅立体匹配)。此外,使用图4中所示的两种类型的2-warp操作,包括提出的2-warp几何连接可以带来额外的性能提升。

表1 对2015年KITTI立体声设备深度估算任务进行定量评估

 表2 Eigen等人对KITTI原始数据集分割深度估计任务的定量评价

      Eigen分割。在表2中,展示了与最先进的Eigen分割方法[2,9,27,32,28]相比,深度估计的性能。从表中可知,本文方法的性能相对于其他方法更胜一筹。

      2、光流估计结果

      在表3中,将本文的无监督流结果与最先进的监督方法[11,22]和无监督方法[17,28,33]进行了比较。

 表3 光流任务的定量评价

       结果表明,本文的模型在不使用2-warp的情况下,已经较其他无监督框架有较好的性能。本文的全模型的三种变体都实现了相似的改进,并且在显著的幅度内,这表明本文提出的2-warp一致性损失可以在不考虑扭曲方向的情况下受益于像素对应值的估计。

图4 KITTI示例结果

       图4为KITTI上的示例结果。在每一行中,依次显示时间t处的左图像、本文所得的预测深度图、真实深度、本文的光流量预测结果及其对应的真实光流。


Abstract 


    Stereo matching and flow estimation are two essential tasks for scene understanding, spatially in 3D and temporally in motion. Existing approaches have been focused on the unsupervised setting due to the limited resource to obtain the large-scale ground truth data. To construct a self-learnable objective, co-related tasks are often linked together to form a joint framework. However, the prior work usually utilizes independent networks for each task, thus not allowing to learn shared feature representations across models. In this paper, we propose a single and principled network to jointly learn spatiotemporal correspondence for stereo matching and flow estimation, with a newly designed geometric connection as the unsupervised signal for temporally adjacent stereo pairs. We show that our method performs favorably against several state-of-the-art baselines for both unsupervised depth and flow estimation on the KITTI benchmark dataset.


如果你对本文感兴趣,想要下载完整文章进行阅读,可以关注【泡泡机器人SLAM】公众号


点击阅读原文,即可获取本文下载链接。提取码:83wb

欢迎来到泡泡论坛,这里有大牛为你解答关于SLAM的任何疑惑。

有想问的问题,或者想刷帖回答问题,泡泡论坛欢迎你!

泡泡网站:www.paopaorobot.org

泡泡论坛:http://paopaorobot.org/bbs/


泡泡机器人SLAM的原创内容均由泡泡机器人的成员花费大量心血制作而成,希望大家珍惜我们的劳动成果,转载请务必注明出自【泡泡机器人SLAM】微信公众号,否则侵权必究!同时,我们也欢迎各位转载到自己的朋友圈,让更多的人能进入到SLAM这个领域中,让我们共同为推进中国的SLAM事业而努力!

商业合作及转载请联系liufuqiang_robot@hotmail.com

登录查看更多
5

相关内容

【ICML2020-西电】用于语言生成的递归层次主题引导RNN
专知会员服务
21+阅读 · 2020年6月30日
【CVPR2020-百度】用于视觉识别的门控信道变换
专知会员服务
12+阅读 · 2020年3月30日
专知会员服务
41+阅读 · 2020年2月20日
【泡泡图灵智库】实时单目物体-模型感知稀疏SLAM(ICRA)
泡泡机器人SLAM
10+阅读 · 2019年7月12日
【泡泡图灵智库】基于几何一致性网络的摄像机运动估计
Joint Monocular 3D Vehicle Detection and Tracking
Arxiv
8+阅读 · 2018年12月2日
VIP会员
Top
微信扫码咨询专知VIP会员