主题: Recent Advances in 3D Object and Hand Pose Estimation

摘要: 3D对象和手势估计具有增强现实的巨大潜力,可以实现可识别的界面,自然界面以及模糊真实世界和虚拟世界之间的边界。本文介绍了利用摄像机进行三维物体和手姿态估计的最新进展,并讨论其功能和局限性以及该领域的未来发展。

成为VIP会员查看完整内容
0
10

相关内容

摘要: 目标检测算法应用广泛,一直是计算机视觉领域备受关注的研究热点。近年来,随着深度学习的发展,3D图像的目标检测研究取得了巨大的突破。与2D目标检测相比,3D目标检测结合了深度信息,能够提供目标的位置、方向和大小等空间场景信息,在自动驾驶和机器人领域发展迅速。文中首先对基于深度学习的2D目标检测算法进行概述;其次根据图像、激光雷达、多传感器等不同数据采集方式,分析目前具有代表性和开创性的3D目标检测算法;结合自动驾驶的应用场景,对比分析不同 3D 目标检测算法的性能、优势和局限性;最后总结了3D目标检测的应用意义以及待解决的问题,并对 3D 目标检测的发展方向和新的挑战进行了讨论和展望。

成为VIP会员查看完整内容
0
98

【导读】三维深度学习对于处理真实场景数据具有重要的意义,3D理解对于很多应用程序都是至关重要的,比如自动驾驶汽车、自动机器人、虚拟现实和增强现实。来自UC San Diego的苏昊老师一直以来研究3D深度学习,他的一份3D Deep Learning教程,共有156页ppt,是学习了解三维深度学习的重要资料。

地址:

http://cseweb.ucsd.edu/~haosu/talks.html#_3d_deep_learning

视频地址: https://youtu.be/vfL6uJYFrp4

深度学习最近很流行,在处理文本、声音或图像等任务时都表现出色。由于其出色的性能,已经有人努力将其应用于更具挑战性的场景,例如,3D数据处理。在这次的演讲中,我将结合自己的工作,对三维深度学习的进展进行一个概述,涉及的领域非常广泛,包括三维识别、单幅图像的三维重建、新视角合成、三维形状空间学习、三维形状补全等。在对目前进展的概述的基础上,我还将提出几个可能的方向来推动该领域的发展,把它放在通用AI的角度。

3D理解对于很多应用都是至关重要的,比如自动驾驶汽车、自动机器人、虚拟现实和增强现实。与以常规像素阵列为主的二维图像不同,三维数据可以由激光雷达传感器等不规则的三维点云来表示。这对深入的架构设计提出了挑战。

本教程将介绍用于3D理解的3D数据分析的深度学习算法,如3D语义分割、3D对象检测和跟踪。尽管取得了这些进展,但在静态和动态环境中,诸如活动识别、行为预测和推断三维场景中物体的空间关系等问题仍然存在根本性的挑战。此外,由于我们的世界本质上是3D的,因此3D深度学习对于表示学习对输入扰动具有鲁棒性,并推广到具有高样本效率的真实世界变化(例如,转换不变性)是至关重要的。本教程提供了一个及时的机会,让计算机视觉社区参与到3D深度学习的独特挑战和机会中来。

苏昊(University of California, San Diego),2017年起在UCSD计算机工程学院担任助理教授,主要研究方向为人工智能领域的结构理解、形状理解、场景理解,研究成果主要集中在机器学习、计算机图像等方面,应用领域包括自动驾驶及VR/AR等方面。

http://cseweb.ucsd.edu/~haosu/

目录内容:

Part I: 3D Data, by Hao Su

Part II: Classification, by Hao Su

Part II: Segmentation & Detection, by Jiayuan Gu

Part III: 3D Data Synthesis, by Minghua Liu

成为VIP会员查看完整内容
0
43

随着机器学习、图形处理技术和医学成像数据的迅速发展,机器学习模型在医学领域的使用也迅速增加。基于卷积神经网络(CNN)架构的快速发展加剧了这一问题,医学成像社区采用这种架构来帮助临床医生进行疾病诊断。自2012年AlexNet取得巨大成功以来,CNNs越来越多地被用于医学图像分析,以提高临床医生的工作效率。近年来,三维(3D) CNNs已被用于医学图像分析。在这篇文章中,我们追溯了3D CNN的发展历史,从它的机器学习的根源,简单的数学描述3D CNN和医学图像在输入到3D CNNs之前的预处理步骤。我们回顾了在不同医学领域,如分类、分割、检测和定位,使用三维CNNs(及其变体)进行三维医学成像分析的重要研究。最后,我们讨论了在医学成像领域使用3D CNNs的挑战(以及使用深度学习模型)和该领域可能的未来趋势。

成为VIP会员查看完整内容
0
43

【导读】随着近几年来AI技术的飞速发展,人们将计算机视觉技术应用于自动驾驶,使得自动驾驶的应用变得可行,很大程度地推进了自动驾驶技术的发展。本文介绍一篇关于自动驾驶计算机视觉的全面综述,覆盖了该领域相关的问题、数据集和最先进的技术。

近几年来,我们目睹了AI相关领域取得的巨大的进步,如计算机视觉、机器学习、自动驾驶等。随着这些领域的飞速发展,初学者很难了解领域最新的进展。在自动驾驶计算机视觉领域,尽管出现了一些关于特定子问题的综述,但尚未发布关于问题、数据集和方法的全面和综合的综述。

综述《Computer Vision for Autonomous Vehicles: Problems, Datasets and State of the Art》试图通过提供对目前最先进的相关技术和数据集的调研来缩小人们对该领域的认知鸿沟。综述既包括了已有的最相关的文献,也包含了一些特殊主题目前最先进的成果,如识别、重建、运动估计、跟踪、场景理解和自动驾驶端到端学习。综述还包含了对最先进技术在KITTI、MOT和Cityscapes等几个具有挑战性的基准数据集上的性能的分析。

另外,该综述还讨论了一些开放问题和目前的研究挑战。综述还提供了一个网站,方便人们访问相关的主题,以及提供额外的信息。

综述首先提供了自动驾驶的简要历史,然后介绍了相机模型和校准技术。接着,综述介绍了与自动驾驶相关的数据集(重点关注与感知相关的数据集)、相关的感知任务和最新的解决方法。尤其是,综述回顾了目标检测、目标跟踪、语义(实体)分割、重建、运动估计和场景理解。每个章节包含了问题定义、重要方法和主要设计选择、顶尖技术在流行数据集上的定性和定量分析以及关于领域最先进技术的讨论。最终,综述提供了关于最先进端到端自动驾驶模型的概览。

综述的目录大致如下:

  • 简介
  • 自动驾驶的历史
  • 感知器
  • 数据集和基准
  • 目标检测
  • 目标跟踪
  • 语义分割
  • 语义实体分割
  • 立体
  • 多视角3D重建
  • 光流
  • 3D场景流
  • 地图、定位和Ego-Motion估计
  • 场景理解
  • 自动驾驶的端到端学习
  • 总结
成为VIP会员查看完整内容
0
73

论文题目: Monocular Depth Estimation: A Survey

论文摘要: 单目深度估计常被描述为一个不适定和固有的模糊问题。从二维图像中估计深度是场景重建、三维目标识别、分割和检测的关键步骤。该问题可以分为:给定单个RGB图像作为输入,预测每个像素的稠密深度图。由于大多数场景具有较大的纹理和结构变化、对象遮挡和丰富的几何细节,这一问题更加严重。所有这些因素都造成了准确估计深度的困难。在本文中,我们回顾了五篇试图用各种技术来解决深度估计问题的论文,这些技术包括有监督、弱监督和无监督学习技术。然后,我们比较这些文件,了解彼此之间的改进。最后,我们探讨可以帮助更好地解决这个问题的潜在改进。

成为VIP会员查看完整内容
0
54

论文主题: Recent Advances in Deep Learning for Object Detection

论文摘要: 目标检测是计算机视觉中的基本视觉识别问题,并且在过去的几十年中已得到广泛研究。目标检测指的是在给定图像中找到具有精确定位的特定目标,并为每个目标分配一个对应的类标签。由于基于深度学习的图像分类取得了巨大的成功,因此近年来已经积极研究了使用深度学习的对象检测技术。在本文中,我们对深度学习中视觉对象检测的最新进展进行了全面的调查。通过复习文献中最近的大量相关工作,我们系统地分析了现有的目标检测框架并将调查分为三个主要部分:(i)检测组件,(ii)学习策略(iii)应用程序和基准。在调查中,我们详细介绍了影响检测性能的各种因素,例如检测器体系结构,功能学习,建议生成,采样策略等。最后,我们讨论了一些未来的方向,以促进和刺激未来的视觉对象检测研究。与深度学习。

成为VIP会员查看完整内容
0
68

In this work we propose a new method for simultaneous object detection and 6DoF pose estimation. Unlike most recent techniques for CNN-based object detection and pose estimation, we do not base our approach on the common 2D counterparts, i.e. SSD and YOLO, but propose a new scheme. Instead of regressing 2D or 3D bounding boxes, we output full-sized 2D images containing multiclass object masks and dense 2D-3D correspondences. Having them at hand, a 6D pose is computed for each detected object using the PnP algorithm supplemented with RANSAC. This strategy allows for substantially better pose estimates due to a much higher number of relevant pose correspondences. Furthermore, the method is real-time capable, conceptually simple and not bound to any particular detection paradigms, such as R-CNN, SSD or YOLO. We test our method for single- and multiple-object pose estimation and compare the performance with the former state-of-the-art approaches. Moreover, we demonstrate how to use our pipeline when only synthetic renderings are available. In both cases, we outperform the former state-of-the-art by a large margin.

0
5
下载
预览

3D vehicle detection and tracking from a monocular camera requires detecting and associating vehicles, and estimating their locations and extents together. It is challenging because vehicles are in constant motion and it is practically impossible to recover the 3D positions from a single image. In this paper, we propose a novel framework that jointly detects and tracks 3D vehicle bounding boxes. Our approach leverages 3D pose estimation to learn 2D patch association overtime and uses temporal information from tracking to obtain stable 3D estimation. Our method also leverages 3D box depth ordering and motion to link together the tracks of occluded objects. We train our system on realistic 3D virtual environments, collecting a new diverse, large-scale and densely annotated dataset with accurate 3D trajectory annotations. Our experiments demonstrate that our method benefits from inferring 3D for both data association and tracking robustness, leveraging our dynamic 3D tracking dataset.

0
8
下载
预览

We propose a scalable, efficient and accurate approach to retrieve 3D models for objects in the wild. Our contribution is twofold. We first present a 3D pose estimation approach for object categories which significantly outperforms the state-of-the-art on Pascal3D+. Second, we use the estimated pose as a prior to retrieve 3D models which accurately represent the geometry of objects in RGB images. For this purpose, we render depth images from 3D models under our predicted pose and match learned image descriptors of RGB images against those of rendered depth images using a CNN-based multi-view metric learning approach. In this way, we are the first to report quantitative results for 3D model retrieval on Pascal3D+, where our method chooses the same models as human annotators for 50% of the validation images on average. In addition, we show that our method, which was trained purely on Pascal3D+, retrieves rich and accurate 3D models from ShapeNet given RGB images of objects in the wild.

0
7
下载
预览
小贴士
相关论文
3D Hand Shape and Pose Estimation from a Single RGB Image
Liuhao Ge,Zhou Ren,Yuncheng Li,Zehao Xue,Yingying Wang,Jianfei Cai,Junsong Yuan
15+阅读 · 2019年3月3日
DPOD: Dense 6D Pose Object Detector in RGB images
Sergey Zakharov,Ivan Shugurov,Slobodan Ilic
5+阅读 · 2019年2月28日
Xuesong Li,Jose E Guivant,Ngaiming Kwok,Yongzhi Xu
7+阅读 · 2019年1月24日
Joint Monocular 3D Vehicle Detection and Tracking
Hou-Ning Hu,Qi-Zhi Cai,Dequan Wang,Ji Lin,Min Sun,Philipp Krähenbühl,Trevor Darrell,Fisher Yu
8+阅读 · 2018年12月2日
Alexander Grabner,Peter M. Roth,Vincent Lepetit
7+阅读 · 2018年3月30日
Martin Simon,Stefan Milz,Karl Amende,Horst-Michael Gross
3+阅读 · 2018年3月16日
Mustansar Fiaz,Arif Mahmood,Soon Ki Jung
9+阅读 · 2018年2月14日
Ju Yong Chang,Kyoung Mu Lee
3+阅读 · 2017年12月28日
Rohit Girdhar,Georgia Gkioxari,Lorenzo Torresani,Manohar Paluri,Du Tran
7+阅读 · 2017年12月26日
Top