【泡泡图灵智库】GeoNet：基于无监督学习的深度、光流和相机位姿的联合估计

会员服务 ·

【泡泡图灵智库】GeoNet：基于无监督学习的深度、光流和相机位姿的联合估计

2018 年 6 月 24 日 泡泡机器人SLAM

泡泡图灵智库，带你精读机器人顶级会议文章

标题：GeoNet: Unsupervised Learning of Dense Depth, Optical Flow and Camera Pose

作者： Zhichao Yin and Jianping Shi

来源：CVPR 2018

编译：李永飞

审核：颜青松

欢迎个人转发朋友圈；其他机构或自媒体如需转载，后台留言申请授权

摘要

大家好，今天为大家带来的文章是：基于无监督学习的深度、光流和相机位姿的联合估计，该文章发表于CVPR 2018。

本文提出了GeoNet，它是一个融合了视频流单目深度估计、光流估计和运动估计的无监督学习框架。在本文的框架中，这三项任务由三维场景的几何的性质而关联在一起，最后通过端到端的方式对其进行学习。具体地说，在单个模块的预测中提取几何关系，然后将其作为图像重构损失，分别对静态和动态场景部分进行推理。此外，本文提出了一种自适应的几何一致性损失，以增强对离群值和非朗伯的区域的鲁棒性，有效地解决了遮挡和纹理的模糊问题。对KITTI数据集的实验表明，本文的方案在所有的三个任务中都达到了最好的结果，比以前的无监督的方法更好，并且能够匹敌监督的方法。

主要贡献

1、提出了一种非监督学习框架GeoNet，用于从视频中联合估计单眼深度、光流和摄像机运动。在该框架中，设计了一种新的网络架构，将静态场景和运动物体的运动流分开进行处理。

2、引入了一种新的自适应几何一致性损失函数，以克服在纯视图合成的目标函数中没有包含的因素，如遮挡处理和像素不一致问题。

算法流程

图1：GeoNet概览。它由用于估计静态场景深度的刚性结构重构器和检测动态物体的运动物体定位器组成。在任何一对双向流预测中都采用一致性检查来处理遮挡和非朗伯的表面。

网络架构

该网络主要由两部分组成：刚性结构重构器和运动物体定位器。

刚性结构重构器

深度估计网络输入为单幅图像，输出为其对应的深度图。姿态估计网络输入为整个图像序列，直接回归出每一个时刻的相机位姿。这两个网络组成了静态场景重构器。其监督信息为像素一致性。具体来说就是：当得到场景的深度和相机的位姿，通过下式：

就能够生成合成的视图，将其与真实视图做比较，就得到了监督信息。

在本阶段，为了使得深度估计对运动物体和遮挡物体更加鲁棒，采用如下的误差函数：

同时，引入深度图平滑的先验信息：

上述两项构成了本阶段最终的监督信息。

运动物体定位器

本阶段，将第一阶段得到的结果作为初始值（将深度图和相机位姿转换为光流图），得到完整的光流图。本阶段的监督信息与上一阶段类似，只需将深度图和姿态的得到的合成视图替换为光流图得到的合成视图，将深度图的平滑替换为光流的平滑约束。

几何一致性约束

上述监督信息中，显式地引入了灰度不变的假设。然而在遮挡或非完全漫反射区域，这一假设往往不成立。为处理这些情况，引入了如下监督信息：

其中

表示：

上式的含义是：如果同一点在前项通道和后向通道的取值相差太大，那么认为该点很可能是野点。

因此最终的损失函数为：

主要结果

本文从深度估计、光流估计、姿态估计三个方面分别设计实验，对算法进行了验证，结果如下：

表1：KITTI 2015数据集上深度估计的结果。就训练集而言，K表示KITTI数据集，CS表示Cityscapes数据集。在KITTI数据集上训练的最优结果加粗表示。Garg et al.的实验结果上限为50m深度，因此将其分开列出。

表2：KITTI 2015光流训练数据集上平均末端误差（分非遮挡区域和全部区域）。人为设计的EpicFlow每帧需要16s（虽然其结果最佳，但实时性很差）；监督学习的FlowNetS算法是在FlyingChairs和Sintel数据集上进行训练；FlowNet2是在FlyingChairs和FlyingThings3D数据集上进行训练的。

图2：直接光流学习方法DirFlowNetS和本文的方法GeoNet结果的比较。如图中所示：GeoNet在遮挡、纹理模糊、甚至阴影区域都显示出明显的优势。

表3：KITTI里程计数据集上的绝对轨迹误差。本文的方法比其他的方法精度都高。

Abstract

We propose GeoNet, a jointly unsupervised learning framework for monocular depth, optical flow and ego motion estimation from videos. The three components are coupled by the nature of 3D scene geometry, jointly learned by our framework in an end-to-end manner. Specifically, geometric relationships are extracted over the predictions of individual modules and then combined as an image reconstruction loss, reasoning about static and dynamic scene parts separately. Furthermore, we propose an adaptive geometric consistency loss to increase robustness towards outliers and non-Lambertian regions, which resolves occlusions and texture ambiguities effectively. Experimentation on the KITTI driving dataset reveals that our scheme achieves state-of-the-art results in all of the three tasks, performing better than previously unsupervised methods and comparably with supervised ones.

如果你对本文感兴趣，想要下载完整文章进行阅读，可以关注【泡泡机器人SLAM】公众号。

点击阅读原文，即可获取本文下载链接。

欢迎来到泡泡论坛，这里有大牛为你解答关于SLAM的任何疑惑。

有想问的问题，或者想刷帖回答问题，泡泡论坛欢迎你！

泡泡网站：www.paopaorobot.org

泡泡论坛：http://paopaorobot.org/forums/