多视图 3D 以变换器重建 (Multi-view 3D Reconstruction with Transformer)

Deep CNN-based methods have so far achieved the state of the art results in multi-view 3D object reconstruction. Despite the considerable progress, the two core modules of these methods - multi-view feature extraction and fusion, are usually investigated separately, and the object relations in different views are rarely explored. In this paper, inspired by the recent great success in self-attention-based Transformer models, we reformulate the multi-view 3D reconstruction as a sequence-to-sequence prediction problem and propose a new framework named 3D Volume Transformer (VolT) for such a task. Unlike previous CNN-based methods using a separate design, we unify the feature extraction and view fusion in a single Transformer network. A natural advantage of our design lies in the exploration of view-to-view relationships using self-attention among multiple unordered inputs. On ShapeNet - a large-scale 3D reconstruction benchmark dataset, our method achieves a new state-of-the-art accuracy in multi-view reconstruction with fewer parameters ($70\%$ less) than other CNN-based methods. Experimental results also suggest the strong scaling capability of our method. Our code will be made publicly available.

翻译：尽管取得了相当大的进展,但这些方法的两个核心模块 -- -- 多视图特征提取和聚合 -- -- 通常都单独调查,而且很少探讨不同观点的对象关系。在本文件中,由于最近在以自我关注为基础的变异器模型方面取得巨大成功,我们重新将多视图 3D 重建作为从序列到序列的预测问题,并提议为这项任务建立一个名为3D 卷变异器(VolT)的新框架。与以前使用单独设计的CNN 方法不同,我们将特征提取和变异组合统一在一个单一的变异器网络中。我们设计的一个自然优势在于利用多种未经排序的投入的自我保护来探索视觉关系。在ShapeNet上,一个大型的3D重建基准数据集,我们的方法在多视图重建中实现了新的状态准确性,其参数比CNN的其他方法少(70美元)。实验结果还表明我们方法的强大缩放能力。我们的代码将公开制作。

相关内容

三维重建

关注 1173

在计算机视觉中, 三维重建是指根据单视图或者多视图的图像重建三维信息的过程. 由于单视频的信息不完全,因此三维重建需要利用经验知识. 而多视图的三维重建(类似人的双目定位)相对比较容易, 其方法是先对摄像机进行标定, 即计算出摄像机的图象坐标系与世界坐标系的关系.然后利用多个二维图象中的信息重建出三维信息。物体三维重建是计算机辅助几何设计(CAGD)、计算机图形学(CG)、计算机动画、计算机视觉、医学图像处理、科学计算和虚拟现实、数字媒体创作等领域的共性科学问题和核心技术。在计算机内生成物体三维表示主要有两类方法。一类是使用几何建模软件通过人机交互生成人为控制下的物体三维几何模型,另一类是通过一定的手段获取真实物体的几何形状。前者实现技术已经十分成熟,现有若干软件支持,比如:3DMAX、Maya、AutoCAD、UG等等,它们一般使用具有数学表达式的曲线曲面表示几何形状。后者一般称为三维重建过程,三维重建是指利用二维投影恢复物体三维信息(形状等)的数学过程和计算机技术,包括数据获取、预处理、点云拼接和特征分析等步骤。

【斯坦福大学课程】2021年深度多任务学习与元学习，CS 330: Deep Multi-Task and Meta Learning

专知会员服务

110+阅读 · 2022年3月2日

【CVPR2021】加法器神经网络（AdderNet）单图像超分辨率

专知会员服务

18+阅读 · 2021年3月16日

最新《Transformers模型》教程，64页ppt

专知会员服务

320+阅读 · 2020年11月26日

CVPR 2020 论文开源项目合集

专知会员服务

110+阅读 · 2020年3月12日