基于深度学习的单目场景深度估计方法研究

单目图像的深度估计是计算机视觉研究的基础性课题,由于其可以指导多种高 阶视觉任务的学习,且具有良好的实际应用前景,近年来也成为计算机视觉领域的 热门课题。单目深度估计旨在基于单张图片或单目视频信息,预测并恢复出场景像 素级别的深度信息。由于现实场景较为复杂,且单目图像或视频信息又缺乏鲁棒的 几何约束,现有的深度估计方法往往会丢失细节或无法预测正确的尺度信息,使得 其实际应用受到制约。本文通过设计有效的深度卷积网络及其学习框架,提出了几 种新的深度估计方法。主要研究成果概述如下:

(1)本文提出了一种新的多尺度端到端深度估计框架。先前的主流方法往往只 能预测超像素级别的深度信息,或基于多步非端到端的学习方法。这导致了算法预 测的深度图像丢失细节,且不利于实际应用。为了端到端的预测精细的深度图像, 本文从两个方面整合了多尺度信息:(a)提出了一种新的多尺度网络以学习多级深 度表征,并利用多尺度表征逐步地引导网络的上采样和预测过程;(b)提出了一种 细粒度正则化方法,使优化器引导网络学习正确的深度结构信息。在不同数据集上 的大量实验表明,本文的方法可以预测更完善的细节信息,且可以取得同期最佳的 预测效果。

(2)现有的基于深度神经网络的方法缺少有效机制以恢复并保留深度图像中的 边缘细节信息,这使其预测效果受到影响。因此,本文提出了一种新的渐进困难挖 掘网络以处理该问题。特别地,本文构建了困难挖掘目标函数,尺度内和尺度间子 网络来精确地定位和修正预测困难的区域。尺度内修正模块可以递归地从不同语义 特征中恢复深度细节,尺度间修正模块可以利用不同尺度的深度信息进行互补交互。困难挖掘目标函数可以引导网络的学习过程,使得网络自适应地关注容易产生累计 预测误差的区域。这三种模块可以有效地协作,逐步地减少学习过程中的误差传播, 进一步地增强深度预测效果。大量的实验分析表明,本文的方法可以有效恢复深度 图像中的边缘和细节信息,并取得同期最好的预测效果。

(3)本文提出了一种新的任务递归学习框架(Task-recursive Learning, TRL) 以同时处理语义分割,平面法向量预测和深度估计三个任务。TRL 通过一系列任务 层面的交互以递归地修正预测结果,其中位于每一个时间阶段的网络模块可以封装 每一个跨任务交互过程。在每一个时间阶段内,TRL将多任务学习过程序列化,并 递归地进行交互。为了自适应地增强任务间的相似模式,本文将交互过程封装在任 务注意力模块(TAM)中,进而使任务的学习过程可以相互促进。在时间阶段之间,通过使用特征选择单元(FS-unit),网络将先前获得的经验有选择性地传播至接下 来的时间节点,进而使任务间的互补信息更充分地被利用。同时,任务交互序列也 在由粗到细的尺度空间中得到延伸,使得细节信息可以被逐步地修正。最终,该多 任务序列化问题被统一地整合进递归网络框架中。在公开数据集上的大量实验表明, 本文的方法可以递归地修正三个任务的预测结果,并获得同期最佳的数值效果。

(4)本文提出了一种新的模式相似性传播框架以同时预测场景深度,法向量和 语义分割。其动机来自于相应的统计观察,即模式相似像素对在同一任务内部和不 同任务之间均频繁地出现。因此,可以进行两种形式的传播过程,即跨任务传播和 任务特异传播以自适应地扩散这些相似的模式。跨任务传播通过计算非局部的关联 性信息以整合跨任务的相似模式,使这些相似模式更好的适应每一个任务。任务特 异性传播则是在特征空间进行迭代扩散过程,使跨任务的相似模式能够被广泛地应 用于任务内部。由此一来,这些任务层面的关联性信息可以调整和促进每一个任务 的学习。在公开数据集上的大量实验证明了本文方法的有效性,同时也在多个数据 集和三个任务上获得了同期最佳的效果。

(5)在线的景深学习问题要求连续地调整深度估计模型使其适应于不断变化的 场景。由于神经网络往往容易过拟合至当前场景而遗忘之前学得的经验,这类开放 世界问题十分具有挑战性。为此,本文提出了一种新的抵抗遗忘的学习方法(LPF) 以处理无监督的在线单目景深学习。与以往更新模型中所有参数的方法不同的是, LPF学习适应器模块以高效地调整特征表示和分布,从而避免在线场景下的知识丢 失问题。具体地,本文提出了一个新的元学习方法,通过将在线适应过程与目标函 数相结合,使学习到的适应器模块可以适应于视频中时间连续的景深模式。为了进 一步地避免过拟合,本文提出了一种新的时间连续正则化方法来调整每个在线学习 步骤的梯度下降过程。在现实场景数据库上的大量实验表明,本文的方法在仅增加 少量参数的情况下,明显地提升了在线景深估计的质量。

成为VIP会员查看完整内容
35
0

相关内容

基于RGB-D图像的语义场景补全研究进展综述
专知会员服务
22+阅读 · 2021年11月8日
专知会员服务
30+阅读 · 2021年8月28日
专知会员服务
20+阅读 · 2021年7月25日
基于深度学习的行人检测方法综述
专知会员服务
46+阅读 · 2021年4月14日
专知会员服务
57+阅读 · 2020年12月18日
专知会员服务
54+阅读 · 2020年12月6日
基于视觉的三维重建关键技术研究综述
专知会员服务
107+阅读 · 2020年5月1日
基于深度学习的单目深度估计综述
CVer
4+阅读 · 2020年10月6日
SuMa++:基于激光雷达的语义SLAM
CVer
6+阅读 · 2019年11月22日
基于深度学习的视觉三维重建研究总结
人工智能前沿讲习班
7+阅读 · 2019年11月19日
计算机视觉方向简介 | 基于单目视觉的三维重建算法
计算机视觉life
27+阅读 · 2019年4月9日
CVPR 2018 论文解读 | 基于GAN和CNN的图像盲去噪
PaperWeekly
11+阅读 · 2019年1月22日
Knowledge Distillation from Internal Representations
Arxiv
4+阅读 · 2019年10月8日
DPOD: Dense 6D Pose Object Detector in RGB images
Arxiv
5+阅读 · 2019年2月28日
Foreground-aware Image Inpainting
Arxiv
4+阅读 · 2019年1月17日
Arxiv
9+阅读 · 2018年1月30日
小贴士
相关VIP内容
基于RGB-D图像的语义场景补全研究进展综述
专知会员服务
22+阅读 · 2021年11月8日
专知会员服务
30+阅读 · 2021年8月28日
专知会员服务
20+阅读 · 2021年7月25日
基于深度学习的行人检测方法综述
专知会员服务
46+阅读 · 2021年4月14日
专知会员服务
57+阅读 · 2020年12月18日
专知会员服务
54+阅读 · 2020年12月6日
基于视觉的三维重建关键技术研究综述
专知会员服务
107+阅读 · 2020年5月1日
微信扫码咨询专知VIP会员