5秒手机猫片也能重建猫咪3D模型，Meta提出新算法为变形物体建模

会员服务 ·

5秒手机猫片也能重建猫咪3D模型，Meta提出新算法为变形物体建模 | CVPR 2022

2022 年 3 月 4 日 量子位

晓查发自凹非寺
量子位 | 公众号 QbitAI

众所周知，猫是一种液体。

这也给CVer带来了极大的烦恼：如何从2D视频中准确地对一只猫进行3D重建？

在很多情况下，3D重建模型得到的真是一滩液体。

而最近Meta团队提出的BANMo（Builder of Animatable 3D Neural Models），实现了对猫精确的3D重建。

这种方法既不需要专门的传感器，也不需要预定义的模板形状，甚至只用你平时给猫咪拍摄的休闲小视频，就可以做3D重建。

这篇关于BANMo的论文最近被CVPR 2022接收，作者已经将相关代码开源。

原理

从单目视频中重建自由移动的非刚性物体（例如猫），是一项高度约束不足的任务，会面临三大挑战：

如何在规范空间中表示目标模型的3D外观和变形；
如何找到规范空间与每帧之间的映射关系；
如何找到图像中视角、光线变化、目标变形之间的2D对应关系。

之前像NRSfM、NeRF等方法，要么是无法精确重建表面，要么对拍摄视角与物体的刚性有要求。

针对这些问题，BANMo使用神经混合皮肤，提供了一种限制目标物体变形空间的方法。

BANMo可以实现高保真3D几何重建。与动态NeRF方法相比，BANMo中使用神经混合皮肤可以更好地处理相机参数未知情况下的姿势变化和变形。

总的来说，BANMo的关键在于合并了三种技术：

（1）利用铰接骨架和混合皮肤的经典可变形形状模型；（2）适合基于梯度优化的神经辐射场NeRF；（3）在像素和铰接模型之间产生对应关系的规范嵌入。

大致方法如下图所示：

根据可微分的卷渲染框架(3.1)优化一组形状和变形参数，用像素颜色、轮廓、光流和高阶特征描述词来描述视频观测结果。

使用神经混合皮肤模型(3.2)在相机空间和规范空间之间转换3D点。

联合优化隐式规范嵌入(3.3)，在视频中注册像素。

从整体架构上来看，BANMo分为三块：

1、形状和外观模型

这部分用多层感知器（MLP）网络预测颜色、密度等属性，并学习相机视角变换和处理大变形。

2、神经混合皮肤变形模型

这是基于近似关节身体运动的神经混合皮肤模型，将物体的扭曲作为刚体变换的组合，每个变换都是可微和可逆的。

3、规范嵌入像素注册

嵌入对规范空间中3D点的语义信息进行编码，在这里作者优化了一个隐式函数，从与2D DensePose CSE嵌入相匹配的3D规范点生成规范嵌入。

在真实和合成数据集上，BANMo在重建穿衣服的人类和动物方面表现出强大的性能。

作者简介

这篇第一作者是杨庚山，毕业于西安交通大学，现在在CMU攻读博士学位，研究动态结构的3D重建算法。

BANMo这篇论文是他在Meta实习期间完成。

从2019年至今，他共有4篇一作论文被NeurIPS接收、4篇一作论文被CVPR接收。

参考链接：
https://banmo-www.github.io
https://github.com/facebookresearch/banmo

— 完 —

本文系网易新闻•网易号特色内容激励计划签约账号【量子位】原创内容，未经账号授权，禁止随意转载。

直播报名 | AI+边缘计算赋能传统企业

在信息化浪潮下，传统企业如何综合利用人工智能、边缘计算等技术勇立潮头，智慧发展？

3月8日19:30，「量子位·视点」CEO/CTO系列分享活动邀请了江行智能CTO樊小毅博士，将围绕AI+边缘计算如何助力碳中和目标、典型应用和未来展望等内容，直播分享个人见解。扫码可报名：

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

一键三连「分享」「点赞」和「在看」

科技前沿进展日日相见 ~

登录查看更多

相关内容

BANMo

关注 0

【CVPR2022】多视图聚合的大规模三维语义分割

专知会员服务

21+阅读 · 2022年4月20日

【CVPR 2022】从大量非正式视频中构建可动画的3D神经模型，BANMo: Building Animatable 3D Neural Models from Many Casual Videos

专知会员服务

25+阅读 · 2022年3月3日

【NeurIPS 2020 】生成式的基于动态图网络学习的三维部件拼装

专知会员服务

16+阅读 · 2020年10月18日

Google 发布图片配对基准及挑战：从系列图像重建三维物体和建筑物

专知会员服务

40+阅读 · 2020年4月4日

CVPR 2020 | MetaFuse：用于人体姿态估计的预训练信息融合模型

专知会员服务

25+阅读 · 2020年4月2日

CVPR 2022｜只用一张图+相机走位，AI就能脑补周围环境！

极市平台

0+阅读 · 2022年3月21日

CVPR 2022 | 5秒手机猫片也能重建猫咪3D模型！Meta提出BANMo：为变形物体3D重建

CVer

1+阅读 · 2022年3月9日

3张图片生成一个手办3D模型！南加州大学华人博士提出新模型NeROIC，更真实！

新智元

1+阅读 · 2022年2月24日

卫星图片重建洛杉矶3D模型，效果就像谷歌地球，港中大团队提出CityNeRF

量子位

0+阅读 · 2021年12月19日

5笔涂出一只3D猫咪模型，可跑可跳无需手动绑定骨骼，新鬼畜素材get丨浙大&开源

量子位

0+阅读 · 2021年12月6日

基于视频图像处理的神经导航空间配准方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于全向深度视觉的高精度人体肢体运动三维重建研究

国家自然科学基金

0+阅读 · 2014年12月31日

图像中复杂形变物体的外轮廓搜索方法研究

国家自然科学基金

0+阅读 · 2013年12月31日

复杂形状特征的三维几何模型重建问题研究

国家自然科学基金

1+阅读 · 2012年12月31日

单目移动拍摄下基于隐式形状模型的行人检测方法研究

国家自然科学基金

0+阅读 · 2008年12月31日

Putting People in their Place: Monocular Regression of 3D People in Depth

Arxiv

0+阅读 · 2022年4月20日

AutoField: Automating Feature Selection in Deep Recommender Systems

Arxiv

0+阅读 · 2022年4月19日

Learning Multi-View Aggregation In the Wild for Large-Scale 3D Semantic Segmentation

Arxiv

0+阅读 · 2022年4月15日

AutoGPart: Intermediate Supervision Search for Generalizable 3D Part Segmentation

Arxiv

0+阅读 · 2022年4月15日

Learning Heterogeneous Knowledge Base Embeddings for Explainable Recommendation

Arxiv

11+阅读 · 2018年5月9日

VIP会员