【泡泡一分钟】基于球面投影的三维物体分类方法研究(3dv-25)

2018 年 1 月 3 日 泡泡机器人SLAM 泡泡一分钟

每天一分钟，带你读遍机器人顶级会议文章

标题：3D Object Classification via Spherical Projections

作者：Zhangjie Cao from Tsinghua University,Qixing Huang from University of Texas at Austin,Ramani Karthik from Purdue University

来源：3DV 2017 (International Conference on 3D Vision 2017)

播音员：朱英

编译：张金明 周平

欢迎个人转发朋友圈；其他机构或自媒体如需转载，后台留言申请授权

摘要

生活中我们常常通过不同的模型感知身边的物理世界，与其他模式相比，三维模型具有对物理对象最为精确的编码和最为直观的描述。在三维物体分析领域，常用的深度学习算法主要分为基于三维的和基于图像的两类：其中基于三维的方法通常使用局域网格对给定的三维对象进行编码，但往往由于内存和计算条件的限制，这些栅格的分辨率较低，降低了几何理解程度；但是基于图像的方法却可以通过二维投影来分析和处理三维模型，它的显著优点是可以利用更高的分辨率来分析投影的图像，同时还可以利用大量的数据集来训练，但同样存在不连续性等问题。

在本文中，作者介绍了一种新的投影方法，它具有现有基于图像技术的优点，但又很好地解决了不连续性等问题。它的基本思想将一个三维物体投影到一个以其重心为原点的球面域上，再利用神经网络模型在单个网络中以量化的形式对三维对象的完整信息进行编码，从而捕获不同视图之间的依赖关系。作者这样处理主要考虑到两个方面的原因：一是球面域在局部上是二维的，这样可以方便地在高分辨率下进行卷积运算，并利用大规模图像数据进行预训练；二是球面域又是连续的、全局的，同样可以从完整的三维对象中捕获图形，而这些优点通常不存在于基于标准图像的投影中。与传统的基于图像的投影方法相比，这种特性使球面投影更具有优势。

基于此，作者结合大规模的图像训练数据提出了两种球面投影方法，一种是从不同的视点来捕捉形状上的深度方差，另一种是从不同的视点来捕捉形状的轮廓信息，这两种方法利用了从数据集预先训练好的神经网络模型中得到的纹理和边界信号，完成了三维物体分类的任务。

作者还以圆柱形贴片为例，经过在多个典型数据集上的训练，在实验结果上得到了很好的验证。

图1：投影网络实例。

该网络以输入对象的球形投影作为输入并在柱面条上进行卷积运算，这些子网络的输出通过一个完全连接的模块捕获不同条带之间的数据依赖关系。

图2：等高线投影图解。

这里利用了36个排列在网格中的渲染图像，其卷积算子适用于由二维矩阵产生的离散圆柱条。

Abstract

In this paper, we introduce a new method for classifying 3D objects. Our main idea is to project a 3D object onto a spherical domain centered around its barycenter and develop neural network to classify the spherical projection. We introduce two complementary projections. The ﬁrst captures depth variations of a 3D object, and the second captures contour-information viewed from different angles. Spherical projections combine key advantages of two main-stream 3D classiﬁcation methods: image-based and 3D-based. Speciﬁ-cally, spherical projections are locally planar, allowing us to use massive image datasets (e.g, ImageNet) for pre-training. Also spherical projections are similar to voxel-based meth-ods, as they encode complete information of a 3D object in a single neural network capturing dependencies across different views. Our novel network design can fully utilize these advantages. Experimental results on ModelNet40 and ShapeNetCore show that our method is superior to prior methods.

如果你对本文感兴趣，想要下载完整文章进行阅读，可以关注【泡泡机器人SLAM】公众号（paopaorobot_slam）。

在【泡泡机器人SLAM】公众号（paopaorobot_slam）中回复关键字“3dv-25”，即可获取本文下载链接。