基于深度学习的单目场景深度估计方法研究

单目图像的深度估计是计算机视觉研究的基础性课题,由于其可以指导多种高 阶视觉任务的学习,且具有良好的实际应用前景,近年来也成为计算机视觉领域的 热门课题。单目深度估计旨在基于单张图片或单目视频信息,预测并恢复出场景像 素级别的深度信息。由于现实场景较为复杂,且单目图像或视频信息又缺乏鲁棒的 几何约束,现有的深度估计方法往往会丢失细节或无法预测正确的尺度信息,使得 其实际应用受到制约。本文通过设计有效的深度卷积网络及其学习框架,提出了几 种新的深度估计方法。主要研究成果概述如下:

(1)本文提出了一种新的多尺度端到端深度估计框架。先前的主流方法往往只 能预测超像素级别的深度信息,或基于多步非端到端的学习方法。这导致了算法预 测的深度图像丢失细节,且不利于实际应用。为了端到端的预测精细的深度图像, 本文从两个方面整合了多尺度信息:(a)提出了一种新的多尺度网络以学习多级深 度表征,并利用多尺度表征逐步地引导网络的上采样和预测过程;(b)提出了一种 细粒度正则化方法,使优化器引导网络学习正确的深度结构信息。在不同数据集上 的大量实验表明,本文的方法可以预测更完善的细节信息,且可以取得同期最佳的 预测效果。

(2)现有的基于深度神经网络的方法缺少有效机制以恢复并保留深度图像中的 边缘细节信息,这使其预测效果受到影响。因此,本文提出了一种新的渐进困难挖 掘网络以处理该问题。特别地,本文构建了困难挖掘目标函数,尺度内和尺度间子 网络来精确地定位和修正预测困难的区域。尺度内修正模块可以递归地从不同语义 特征中恢复深度细节,尺度间修正模块可以利用不同尺度的深度信息进行互补交互。困难挖掘目标函数可以引导网络的学习过程,使得网络自适应地关注容易产生累计 预测误差的区域。这三种模块可以有效地协作,逐步地减少学习过程中的误差传播, 进一步地增强深度预测效果。大量的实验分析表明,本文的方法可以有效恢复深度 图像中的边缘和细节信息,并取得同期最好的预测效果。

(3)本文提出了一种新的任务递归学习框架(Task-recursive Learning, TRL) 以同时处理语义分割,平面法向量预测和深度估计三个任务。TRL 通过一系列任务 层面的交互以递归地修正预测结果,其中位于每一个时间阶段的网络模块可以封装 每一个跨任务交互过程。在每一个时间阶段内,TRL将多任务学习过程序列化,并 递归地进行交互。为了自适应地增强任务间的相似模式,本文将交互过程封装在任 务注意力模块(TAM)中,进而使任务的学习过程可以相互促进。在时间阶段之间,通过使用特征选择单元(FS-unit),网络将先前获得的经验有选择性地传播至接下 来的时间节点,进而使任务间的互补信息更充分地被利用。同时,任务交互序列也 在由粗到细的尺度空间中得到延伸,使得细节信息可以被逐步地修正。最终,该多 任务序列化问题被统一地整合进递归网络框架中。在公开数据集上的大量实验表明, 本文的方法可以递归地修正三个任务的预测结果,并获得同期最佳的数值效果。

(4)本文提出了一种新的模式相似性传播框架以同时预测场景深度,法向量和 语义分割。其动机来自于相应的统计观察,即模式相似像素对在同一任务内部和不 同任务之间均频繁地出现。因此,可以进行两种形式的传播过程,即跨任务传播和 任务特异传播以自适应地扩散这些相似的模式。跨任务传播通过计算非局部的关联 性信息以整合跨任务的相似模式,使这些相似模式更好的适应每一个任务。任务特 异性传播则是在特征空间进行迭代扩散过程,使跨任务的相似模式能够被广泛地应 用于任务内部。由此一来,这些任务层面的关联性信息可以调整和促进每一个任务 的学习。在公开数据集上的大量实验证明了本文方法的有效性,同时也在多个数据 集和三个任务上获得了同期最佳的效果。

(5)在线的景深学习问题要求连续地调整深度估计模型使其适应于不断变化的 场景。由于神经网络往往容易过拟合至当前场景而遗忘之前学得的经验,这类开放 世界问题十分具有挑战性。为此,本文提出了一种新的抵抗遗忘的学习方法(LPF) 以处理无监督的在线单目景深学习。与以往更新模型中所有参数的方法不同的是, LPF学习适应器模块以高效地调整特征表示和分布,从而避免在线场景下的知识丢 失问题。具体地,本文提出了一个新的元学习方法,通过将在线适应过程与目标函 数相结合,使学习到的适应器模块可以适应于视频中时间连续的景深模式。为了进 一步地避免过拟合,本文提出了一种新的时间连续正则化方法来调整每个在线学习 步骤的梯度下降过程。在现实场景数据库上的大量实验表明,本文的方法在仅增加 少量参数的情况下,明显地提升了在线景深估计的质量。

成为VIP会员查看完整内容
0
23

相关内容

近年来随着计算机视觉领域的不断发展,三维场景的语义分割和形状补全受到学术界和工业界的广泛关注.其中,语义场景补全是这一领域的新兴研究,该研究以同时预测三维场景的空间布局和语义标签为目标,在近几年得到快速发展.本文对近些年该领域提出的基于RGB-D图像的方法进行了分类和总结.根据有无使用深度学习将语义场景补全方法划分为传统方法和基于深度学习的方法两大类.其中,对于基于深度学习的方法,根据输入数据类型将其划分为基于单一深度图像的方法和基于彩色图像联合深度图像的方法.在对已有方法分类和概述的基础上,本文对语义场景补全任务所使用的相关数据集进行了整理,并分析了现有方法的实验结果.最后,本文总结了该领域面临的挑战和发展前景.

成为VIP会员查看完整内容
0
17

其中一项非常值得研究的工作,点云配准旨在将多个点云正确配准到同一个坐标系下,形成更完整的点云。点云配准要应对点云非结构化、不均匀、噪声等的干扰,要以更短的时间消耗达到更高的精度,但是时间消耗和精度往往是矛盾的,但在一定程度上优化是有可能的。点云配准广泛应用于三维重建、参数评估、定位和姿态估计等领域,在自动驾驶、机器人、增强现实等新兴应用上也有点云配准技术的参与。为此研究者开发了多样又巧妙的点云配准方法,本文梳理了一些比较有代表性的点云配准方法并进行分类总结,对比相关工作,尽量覆盖点云配准的各种形式,并对一些方法的细节加以分析介绍。将现有方法归纳为非学习方法和基于学习的方法进行分析。非学习方法分为经典方法和基于特征的方法,基于学习的方法分为结合了非学习方法的部分学习方法和直接的端到端学习方法这两类。分别介绍了各类方法的典型算法,对比总结算法特性,展望点云配准技术的未来研究方向。

http://www.cjig.cn/jig/ch/reader/view_abstract.aspx?flag=2&file_no=202103290000004&journal_id=jig

成为VIP会员查看完整内容
0
14

基于深度学习的图像处理算法研究

随着智能手机和微单相机的普及,拍照已经变成人们日常生活中不可缺少的一部分,图像也已成为人类社会的重要信息媒介。然而受到拍照环境、设备和技术的影响,图像中难免会出现退化现象,如何从图像处理的角度提升拍摄照片的质量具有重要的研究意义与应用价值。近年来,深度学习技术得到了巨大的发展,并广泛应用于图像处理领域。相对于许多传统算法,深度学习技术从海量的训练数据中学习到的先验知识具有更强的泛化能力和更复杂的参数化表达,且无需调节算法参数以适应不同的应用场景。得益于上述优势,深度学习技术已经广泛应用于图像处理领域,如何利用深度学习算法提升图像处理的效果也变成了一个重要的研究方向。

尽管深度学习技术显著促进了图像处理领域的发展,但是受限于其对训练数据的敏感性,在面对无标签、仅有弱标签或者合成伪标签的数据时,深度学习技术的优势难以充分体现。本学位论文针对以上挑战,重点研究了缺失完整数据标签的经典图像处理问题,包括图像平滑、反光去除和本征图像分解等。本文通过将上述问题抽象为对图像结构敏感的图像分解问题,将显著的目标边缘信息通过优化或者滤波的方式编码进深度学习的算法设计中。根据图像处理问题中数据标签的类型和数量不同,本文依次提出了基于无监督学习、弱监督学习和多标签联合训练的深度学习解决方案。本文的最后提出了解耦学习框架,通过对10种不同图像处理问题的联合训练,提炼出了图像处理问题的核心解空间。该算法对于理解深度学习技术在图像处理领域的应用有重要的研究价值和意义。本文的创新点和贡献包括以下几个方面:

(1) 一种基于无监督学习的空间自适应图像平滑算法

该算法通过使用卷积神经网络,以无监督的方式从无标签数据中学习图像平滑的优化过程,并实现可灵活调节的图像平滑效果。该算法提出了一个由边缘保持项和空间自适应平滑项构成的能量函数,前者用于保持重要但易破坏的图像结构,后者用于将多种形式的正则器(Lp范数)施加至图像的不同区域。由于缺乏平滑图像的真值数据,本文采用一个无监督学习的能量优化框架,用来实现多种基于图像平滑的视觉应用,譬如图像抽象化、铅笔素描、细节增强、纹理去除和基于内容的图像处理等。实验结果表明,该基于无监督学习的空间自适应图像平滑算法获得了更好的视觉结果。

(2) 一种基于弱监督学习的图像反光去除算法

该算法提出了一个多阶段卷积神经网络,用以解决图像分解领域中经典的反光去除问题。本算法框架由两个结构相似的卷积神经网络串联而成,前者预测目标图像的边缘结构,后者依据预测边缘信息的引导重建目标图像;整个过程既不需要任何人工设计,也不依赖于其他图像处理应用。通过从真实反光图像观察得到的图像亮度和结构先验,该算法设计了一种针对模糊强反光的反光图像合成算法;通过将合成数据以弱监督信号的形式融入到多阶段神经网络训练中,该算法获得了在真实反光图像上的良好泛化性能。实验结果表明,该基于弱监督学习的图像反光去除算法在不同程度的反光场景中均获得更优的视觉效果。

(3) 一种基于多标签联合训练的本征图像分解算法

本征图像分解往往存在数据集冗杂、数据标签不一致等问题。为解决该问题,本文提出了一个通用的核心神经网络,用以在不同类型的数据标签中共享本征图像形成过程的稀疏先验。该神经网络由三个不同的基础模块组成:直接本征图像估计网络、导向网络和域滤波器;其中,直接本征图像估计网络通过对本征图像的直接监督获得初始的预测结果,导向网络负责生成稀疏的反射结构先验,并引导域滤波器获得干净的反射估计。该算法设计了一个灵活的能量损失层以实现多标签数据联合训练的目的。实验结果表明,该本征图像分解算法在所有的主流基准数据集上都获得了更高的精确度。

(4) 一种基于解耦学习的实时参数化图像处理框架

传统的深度学习算法在面对不同的图像处理应用时,需要重复地训练神经网络。为了解决这个问题,该算法提出了由基础网络和权重学习网络组成的解耦学习框架,其中前者用来实现具体的图像处理应用,后者用来学习基础网络的权重。该算法通过对基础网络的结构和权重进行解耦,达到根据图像处理应用的变化实时动态调整基础网络权重的效果,并因此实现了利用单一神经网络融合多种图像处理应用的目的。实验结果表明,该解耦学习框架成功应用在10种不同的参数化图像算子中,并减少了网络参数的存储空间。

成为VIP会员查看完整内容
0
43

摘要:场景分割问题是计算机视觉领域基本而重要的问题,具有广泛的应用价值。 场景分割需要解决的科学问题是如何对场景中的要素进行精确分割。其主要难 点在于场景图像的结构十分复杂,包含多种类别和多种尺度的要素,且这些要素 之间存在着丰富的空间关系。同时在实际应用中,在保证场景分割精度的条件下 也需要综合考虑计算复杂度和速度。因此,场景分割问题的主要难点和挑战可概 括为三个方面:1)尺度变换多样,2)空间关系复杂,3)时间复杂度高。近年来, 基于深度学习,尤其是卷积神经网络的方法在场景分割领域取得了巨大的进展, 但基于深度学习的场景分割方法还存在着一定的局限性。本课题对基于深度学 习的场景分割方法进行研究,针对上述三个难点和挑战,取得了以下成果:

  1. 基于尺度自适应卷积的场景分割方法 目前基于深度学习的场景分割方法主要利用标准卷积,其感受野大小固定。 而场景图像中要素的尺度变化多样,导致大尺度要素分割结果不连续,小尺度要 素与背景混淆而遗漏的问题。针对该问题,我们提出尺度自适应卷积方法,对场 景图像中不同尺度的要素自适应改变卷积感受野大小。该方法可以缓解由于标 准卷积感受野固定引起的大尺度要素分割结果不连续和小尺度要素被遗漏的问 题。尺度自适应卷积的整个过程是可导的,其卷积参数可以利用一个端到端的结 构从数据中自动和隐式的学习。我们在 Cityscapes 和 ADE20K 两个数据集上验 证了尺度自适应卷积的有效性。

  2. 基于全局和局部修正的场景分割方法 场景图像中具有复杂的空间关系和丰富的上下文信息,对场景中要素的识 别具有极大的帮助作用。我们分别利用全局上下文信息和局部上下文信息对给 定的场景分割结果进行修正。我们首先提出全局残差修正网络,通过捕捉图像中 的全局上下文信息进行分割结果的修正。经过全局残差修正网络修正之后,原 始分割结果中不一致、不连续的区域将被修正。其次,我们提出局部边界修正网 络,通过捕捉图像中的局部上下文信息,对给定分割结果的边界和细节进行修 正。经过局部边界修正网络修正之后,原始分割结果中的分割边界将更加精确和 平滑。这两种修正网络均可单独使用,也可以级联在给定的分割网络之后形成一 个统一框架,以共同提高修正结果的精度。在 Cityscapes 和 ADE20K 两个数据 集上的结果显示这两种修正网络可以有效提高给定分割结果的精度。

  3. 基于高分辨率特征图重建的场景分割加速方法 现有大多数场景分割方法着眼于提高模型的分割精度,因此使用较深的神 经网络和较高分辨率的特征图,分割精度较高但速度较慢。为解决由于较大尺寸 输入图像和高分辨率特征图导致的场景分割速度较慢的问题,我们提出高分辨 率特征图重建方法对任意给定的场景分割框架进行加速。该方法利用降采样输 入图像的特征图对原始大小输入图像的特征图进行重建。利用降采样输入图像 进行特征学习的速度较快,而重建原始大小输入图像的特征图可以缓解使用降 采样输入图像导致的细节丢失和精度下降问题。我们在两个公开数据集上验证 了高分辨率特征图重建方法的有效性,当使用 1/2 降采样率时,可以在分割精度 损失忽略不计的情况下得到约 3 倍的加速比。

关键词:场景分割,深度学习,尺度自适应卷积,全局和局部修正网络,高分辨 率特征图重建

作者简介:张蕊,2009年9月-2013 年7月,在北京航空航天大学数学与系统科学学院获理学学士学位。2013年9月-2019年7月,在中国科学院计算技术研究所攻读博士学位,博士生导师是李锦涛。

成为VIP会员查看完整内容
0
24
小贴士
相关VIP内容
专知会员服务
19+阅读 · 2021年12月4日
专知会员服务
17+阅读 · 2021年11月8日
专知会员服务
20+阅读 · 2021年8月28日
专知会员服务
14+阅读 · 2021年7月25日
专知会员服务
40+阅读 · 2021年1月16日
专知会员服务
10+阅读 · 2020年12月23日
专知会员服务
43+阅读 · 2020年12月6日
相关论文
Software Engineering User Study Recruitment on Prolific: An Experience Report
Brittany Reid,Markus Wagner,Marcelo d'Amorim,Christoph Treude
0+阅读 · 1月14日
Chenyang Qiu,Zhaoci Huang,Wenzhe Xu,Huijia Li
0+阅读 · 1月8日
VrR-VG: Refocusing Visually-Relevant Relationships
Yuanzhi Liang,Yalong Bai,Wei Zhang,Xueming Qian,Li Zhu,Tao Mei
6+阅读 · 2019年8月26日
Single-Image Piece-wise Planar 3D Reconstruction via Associative Embedding
Zehao Yu,Jia Zheng,Dongze Lian,Zihan Zhou,Shenghua Gao
7+阅读 · 2019年2月26日
Chih-Ming Chen,Chuan-Ju Wang,Ming-Feng Tsai,Yi-Hsuan Yang
6+阅读 · 2019年2月19日
TTMF: A Triple Trustworthiness Measurement Frame for Knowledge Graphs
Shengbin Jia,Yang Xiang,Xiaojun Chen,Shijia E
6+阅读 · 2018年9月25日
Monocular Object and Plane SLAM in Structured Environments
Shichao Yang,Sebastian Scherer
10+阅读 · 2018年9月10日
Hanie Sedghi,Ashish Sabharwal
6+阅读 · 2018年3月28日
Lingxiao He,Jian Liang,Haiqing Li,Zhenan Sun
9+阅读 · 2018年1月3日
Zhouhan Lin,Minwei Feng,Cicero Nogueira dos Santos,Mo Yu,Bing Xiang,Bowen Zhou,Yoshua Bengio
22+阅读 · 2017年3月9日
Top
微信扫码咨询专知VIP会员