We propose a novel approach for unsupervised 3D animation of non-rigid deformable objects. Our method learns the 3D structure and dynamics of objects solely from single-view RGB videos, and can decompose them into semantically meaningful parts that can be tracked and animated. Using a 3D autodecoder framework, paired with a keypoint estimator via a differentiable PnP algorithm, our model learns the underlying object geometry and parts decomposition in an entirely unsupervised manner. This allows it to perform 3D segmentation, 3D keypoint estimation, novel view synthesis, and animation. We primarily evaluate the framework on two video datasets: VoxCeleb $256^2$ and TEDXPeople $256^2$. In addition, on the Cats $256^2$ image dataset, we show it even learns compelling 3D geometry from still images. Finally, we show our model can obtain animatable 3D objects from a single or few images. Code and visual results available on our project website, see https://snap-research.github.io/unsupervised-volumetric-animation .
翻译:我们为非硬化变形天体不受监督的 3D 动动动画提出了一种新颖的方法。 我们的方法只从单视图 RGB 视频中学习对象的 3D 结构和动态, 并且可以将其分解成可以跟踪和动动画的具有内涵意义的部件。 我们用 3D 自动解码框架, 配上一个关键点估计器, 通过不同的 PnP 算法, 我们的模型可以完全不受监督的方式学习基本对象的几何和部件分解。 这样可以执行 3D 分割、 3D 关键点估计、 新的视图合成和动画。 我们主要评估两个视频数据集的框架: VoxCeleb 256 $ 2美元 和 TEDX People 256$2美元。 此外, 在 Cats 256 $ 2 图像数据集上, 我们甚至展示了从静止图像中令人信服的 3D 几度。 最后, 我们展示了我们的模型可以从一个或几个图像中获取 3D imabable 3D 对象。 。 。 代码和我们项目网站上可查看的视觉结果, 见 http:// stailvial- supligionalimation.