云从科技3D人体重建技术刷新3项纪录！仅凭照片即可生成精细模型 - 专知

会员服务 ·

0

云从科技3D人体重建技术刷新3项纪录！仅凭照片即可生成精细模型

2019 年 3 月 20 日 AI100

3 月 19 日，根据官方消息，云从科技基于单帧图像的 3D 人体重建技术同时在 Human3.6M、Surreal 和 UP-3D 三大数据集上创造了最新的世界纪录，将原有最低误差记录大幅降低 30%。

Human3.6M 数据集上对比

Surreal 数据集上对比

UP-3D 数据集上对比

3D 重建领域通常以误差（Error）作为衡量算法能力的主要指标，误差就是生成模型与实际图像的差别。一般来说，误差越低，精度越高，意味着技术的性能越好。

云从称，其 3D 人体重建技术全身精度误差（Surface Error）在 Surreal 上从 75.4 毫米降低到 52.7 毫米，关节精度误差（3D Joint Error）从 55.8 毫米降低到 40.1 毫米，Human3.6M 上的关节精度误差（3D Joint Error）从 59.9 毫米降低到 46.7 毫米，技术的执行速度从之前的上百毫秒降低到仅需 5 毫秒。

与传统关键点检测、3D 重建的区别是什么？

传统的人体关键点检测技术往往以 2D 的人体骨骼关节点检测形式出现，即通过技术预测 RGB 图像中人体的十几个关节点的坐标，一方面结果非常稀疏，将人体大为简化成骨骼的形式，另一方面结果往往只包含二维平面上的坐标预测，不能还原深度信息，因此无法体现纵深的感觉。

而基于单帧图像的 3D 重建技术不仅能输出骨骼关节点信息，更能同时预测大量的人体表面关键点信息，预测结果更加丰富，而且每个点的坐标都是 3D 的，能够体现不同躯干的纵深信息。

3D 关键点检测

传统 3D 重建技术大多需要连续的图像序列或是多视角的图像，在硬件设备上一般需要采用双目摄像机或者结构光摄像机等设备，因此在手机等便携设备上往往难以实现；另一方面，专用设备还会增加部署成本，增加大规模普及 3D 重建技术的难度。

上述突破是如何实现的？

据悉，该论文对人体具有丰富多样的姿态和穿着的特点，提出了一套全新的基于人体 3D 纵深预测的 3D 信息表征方式。通过对三原色图像（RGB，不含深度信息）的分析，预测人体的 3D 形态和姿势，并用 6 万多个点完整描绘人体，从而在人体重建技术上取得速度与精度的双突破，呈现出来的模型更精细，帧率高达到 200fps，原本由于受实时显示限制而无法实现的应用可以一一实现。

不过，基于单帧图像的 3D 重建技术对原始图像的需求放松的同时，对背后的技术提出了更难的挑战：技术需要从单帧图像中推理出人体或人脸的 3D 形态，并通过光学透视、阴影叠加等基本光学原则准确预测出各个关键点在 3D 空间的位置和朝向，从而得到人体的姿态或表情信息。

可探索的技术应用方向

人体姿态和服饰复杂多样，精度提升意味着对复杂场景的适应性更好，模型更接近真实的情况。如《阿凡达》、《阿丽塔》、漫威系列等电影中，都需要专用特效设备与面部贴点来完成精细的人像采集，基于单帧图像的 3D 人体 / 人脸重建技术，意味着可能颠覆电影视频的拍摄制作，同时降低工业级 3D 动画合成的门槛。

由于对输入图像的要求低，使 3D 重建技术将可以利用普通光学摄像头作为感知设备。例如，该技术将会使美颜 App 无需结构光摄像头也能具备高精准度的瘦身与动画合成功能。

目前，这项技术可通过重要人员影像重建、医疗仿真肢体打印、虚拟试衣、美颜化妆、表情姿态动画合成等应用场景在大型商场、直播平台、美颜软件、影视特效制作等行业普及。

（本文为 AI科技大本营整理文章，转载请微信联系 1092722531）

◆

精彩推荐

◆

4月13-14日，CSDN将在北京主办“Python开发者日（2019）”，汇聚十余位来自阿里巴巴、IBM、英伟达等国内外一线科技公司的Python技术专家，还有数百位来自各行业领域的Python开发者，共同探讨Python在不同场景下的的应用优势和实战经验。扫描海报二维码，即刻购票！

推荐阅读：

点一下再走，好吗？

❤点击“阅读原文”，查看历史精彩文章。

登录查看更多

6

相关内容

3D是英文“Three Dimensions”的简称，中文是指三维、三个维度、三个坐标，即有长、有宽、有高，换句话说，就是立体的，是相对于只有长和宽的平面（2D）而言。

【ICML2020-西电】用于语言生成的递归层次主题引导RNN

【ICML2020-西电】用于语言生成的递归层次主题引导RNN

专知会员服务

22+阅读 · 2020年6月30日

【CVPR2020-Oral】自监督单目场景流量估计，Self-Supervised Monocular SFE

【CVPR2020-Oral】自监督单目场景流量估计，Self-Supervised Monocular SFE

专知会员服务

23+阅读 · 2020年4月9日

【FAIR-CVPR2020】PIFuHD:多级像素对齐隐式功能，实现高分辨率三维人体数字化

【FAIR-CVPR2020】PIFuHD:多级像素对齐隐式功能，实现高分辨率三维人体数字化

专知会员服务

29+阅读 · 2020年4月5日

Google 发布图片配对基准及挑战：从系列图像重建三维物体和建筑物

Google 发布图片配对基准及挑战：从系列图像重建三维物体和建筑物

专知会员服务

40+阅读 · 2020年4月4日

CVPR 2020 | MetaFuse：用于人体姿态估计的预训练信息融合模型

CVPR 2020 | MetaFuse：用于人体姿态估计的预训练信息融合模型

专知会员服务

25+阅读 · 2020年4月2日

【CVPR2020-斯坦福】从RGB-D扫描对抗纹理优化，Adversarial Texture Optimization

【CVPR2020-斯坦福】从RGB-D扫描对抗纹理优化，Adversarial Texture Optimization

专知会员服务

17+阅读 · 2020年3月21日

【DeepMind】PolyGen: 一种三维网格的自回归生成模型，PolyGen: An Autoregressive Generative Model of 3D Meshes

【DeepMind】PolyGen: 一种三维网格的自回归生成模型，PolyGen: An Autoregressive Generative Model of 3D Meshes

专知会员服务

37+阅读 · 2020年2月27日

姿势服装随心换-CVPR2019

姿势服装随心换-CVPR2019

专知会员服务

36+阅读 · 2020年1月26日

【CGAN论文笔记强烈推荐】基于CGAN的人脸深度图估计： Face Depth Estimation With Conditional Generative Adversarial Networks

专知会员服务

24+阅读 · 2020年1月8日

【浙江大学】对抗样本生成技术综述

【浙江大学】对抗样本生成技术综述

专知会员服务

92+阅读 · 2020年1月6日

美图影像实验室（MTlab）10000 点人脸关键点技术全解读

美图影像实验室（MTlab）10000 点人脸关键点技术全解读

雷锋网

7+阅读 · 2019年6月11日

生成逼真3D人偶，居然不用3D形状建模，还能学会你的舞步 | 三星CVPR Oral

生成逼真3D人偶，居然不用3D形状建模，还能学会你的舞步 | 三星CVPR Oral

量子位

9+阅读 · 2019年6月10日

业界 | 美图影像实验室（MTlab）10000 点人脸关键点技术全解读

业界 | 美图影像实验室（MTlab）10000 点人脸关键点技术全解读

AI科技评论

7+阅读 · 2019年6月7日

旷视研究院新出8000点人脸关键点，堪比电影级表情捕捉

旷视研究院新出8000点人脸关键点，堪比电影级表情捕捉

极市平台

31+阅读 · 2019年4月24日

照片上的人出来了！云从3D人体重建登顶三项榜单，一张照片就能生成3D形象

照片上的人出来了！云从3D人体重建登顶三项榜单，一张照片就能生成3D形象

量子位

4+阅读 · 2019年3月20日

SkeletonNet：完整的人体三维位姿重建方法

SkeletonNet：完整的人体三维位姿重建方法

计算机视觉life

21+阅读 · 2019年1月21日

人体骨骼关键点检测综述

人体骨骼关键点检测综述

极市平台

21+阅读 · 2018年6月29日

FAIR提出人体姿势估计新模型DensePose-RCNN，升级版Mask-RCNN

FAIR提出人体姿势估计新模型DensePose-RCNN，升级版Mask-RCNN

极市平台

7+阅读 · 2018年2月7日

密集人体姿态估计：2D图像帧可实时生成UV贴图（附论文）

密集人体姿态估计：2D图像帧可实时生成UV贴图（附论文）

量子位

5+阅读 · 2018年2月4日

干货｜基于双流递归神经网络的人体骨架行为识别！

干货｜基于双流递归神经网络的人体骨架行为识别！

全球人工智能

13+阅读 · 2017年12月15日

Total3DUnderstanding: Joint Layout, Object Pose and Mesh Reconstruction for Indoor Scenes from a Single Image

Total3DUnderstanding: Joint Layout, Object Pose and Mesh Reconstruction for Indoor Scenes from a Single Image

Arxiv

12+阅读 · 2020年2月27日

Sparse2Dense: From direct sparse odometry to dense 3D reconstruction

Sparse2Dense: From direct sparse odometry to dense 3D reconstruction

Arxiv

9+阅读 · 2019年3月21日

Auto-DeepLab: Hierarchical Neural Architecture Search for Semantic Image Segmentation

Auto-DeepLab: Hierarchical Neural Architecture Search for Semantic Image Segmentation

Arxiv

5+阅读 · 2019年1月10日

Music Transformer

Music Transformer

Arxiv

5+阅读 · 2018年12月12日

Learning Implicit Fields for Generative Shape Modeling

Learning Implicit Fields for Generative Shape Modeling

Arxiv

10+阅读 · 2018年12月6日

Chinese NER Using Lattice LSTM

Arxiv

5+阅读 · 2018年5月5日

Towards Neural Phrase-based Machine Translation

Arxiv

3+阅读 · 2018年4月18日

3D Reconstruction in Canonical Co-ordinate Space from Arbitrarily Oriented 2D Images

Arxiv

4+阅读 · 2018年1月23日

2D-3D Pose Consistency-based Conditional Random Fields for 3D Human Pose Estimation

Arxiv

3+阅读 · 2017年12月28日

Depth-Gated LSTM

Arxiv

4+阅读 · 2015年8月25日

VIP会员

相关主题

Microsoft Surface

相关VIP内容

【ICML2020-西电】用于语言生成的递归层次主题引导RNN

【ICML2020-西电】用于语言生成的递归层次主题引导RNN

专知会员服务

22+阅读 · 2020年6月30日

【CVPR2020-Oral】自监督单目场景流量估计，Self-Supervised Monocular SFE

【CVPR2020-Oral】自监督单目场景流量估计，Self-Supervised Monocular SFE

专知会员服务

23+阅读 · 2020年4月9日

【FAIR-CVPR2020】PIFuHD:多级像素对齐隐式功能，实现高分辨率三维人体数字化

【FAIR-CVPR2020】PIFuHD:多级像素对齐隐式功能，实现高分辨率三维人体数字化

专知会员服务

29+阅读 · 2020年4月5日

Google 发布图片配对基准及挑战：从系列图像重建三维物体和建筑物

Google 发布图片配对基准及挑战：从系列图像重建三维物体和建筑物

专知会员服务

40+阅读 · 2020年4月4日

CVPR 2020 | MetaFuse：用于人体姿态估计的预训练信息融合模型

CVPR 2020 | MetaFuse：用于人体姿态估计的预训练信息融合模型

专知会员服务

25+阅读 · 2020年4月2日

【CVPR2020-斯坦福】从RGB-D扫描对抗纹理优化，Adversarial Texture Optimization

【CVPR2020-斯坦福】从RGB-D扫描对抗纹理优化，Adversarial Texture Optimization

专知会员服务

17+阅读 · 2020年3月21日

【DeepMind】PolyGen: 一种三维网格的自回归生成模型，PolyGen: An Autoregressive Generative Model of 3D Meshes

【DeepMind】PolyGen: 一种三维网格的自回归生成模型，PolyGen: An Autoregressive Generative Model of 3D Meshes

专知会员服务

37+阅读 · 2020年2月27日

姿势服装随心换-CVPR2019

姿势服装随心换-CVPR2019

专知会员服务

36+阅读 · 2020年1月26日

【CGAN论文笔记强烈推荐】基于CGAN的人脸深度图估计： Face Depth Estimation With Conditional Generative Adversarial Networks

专知会员服务

24+阅读 · 2020年1月8日

【浙江大学】对抗样本生成技术综述

【浙江大学】对抗样本生成技术综述

专知会员服务

92+阅读 · 2020年1月6日

热门VIP内容

开通专知VIP会员享更多权益服务

【伯克利博士论文】通过真实世界实践赋能机器人自主性

军用无人机集群技术尚未成熟——但潜力可期

人工智能安全治理白皮书（2025）

AgentOps综述：分类、挑战与未来方向

相关资讯

美图影像实验室（MTlab）10000 点人脸关键点技术全解读

美图影像实验室（MTlab）10000 点人脸关键点技术全解读

雷锋网

7+阅读 · 2019年6月11日

生成逼真3D人偶，居然不用3D形状建模，还能学会你的舞步 | 三星CVPR Oral

生成逼真3D人偶，居然不用3D形状建模，还能学会你的舞步 | 三星CVPR Oral

量子位

9+阅读 · 2019年6月10日

业界 | 美图影像实验室（MTlab）10000 点人脸关键点技术全解读

业界 | 美图影像实验室（MTlab）10000 点人脸关键点技术全解读

AI科技评论

7+阅读 · 2019年6月7日

旷视研究院新出8000点人脸关键点，堪比电影级表情捕捉

旷视研究院新出8000点人脸关键点，堪比电影级表情捕捉

极市平台

31+阅读 · 2019年4月24日

照片上的人出来了！云从3D人体重建登顶三项榜单，一张照片就能生成3D形象

照片上的人出来了！云从3D人体重建登顶三项榜单，一张照片就能生成3D形象

量子位

4+阅读 · 2019年3月20日

SkeletonNet：完整的人体三维位姿重建方法

SkeletonNet：完整的人体三维位姿重建方法

计算机视觉life

21+阅读 · 2019年1月21日

人体骨骼关键点检测综述

人体骨骼关键点检测综述

极市平台

21+阅读 · 2018年6月29日

FAIR提出人体姿势估计新模型DensePose-RCNN，升级版Mask-RCNN

FAIR提出人体姿势估计新模型DensePose-RCNN，升级版Mask-RCNN

极市平台

7+阅读 · 2018年2月7日

密集人体姿态估计：2D图像帧可实时生成UV贴图（附论文）

密集人体姿态估计：2D图像帧可实时生成UV贴图（附论文）

量子位

5+阅读 · 2018年2月4日

干货｜基于双流递归神经网络的人体骨架行为识别！

干货｜基于双流递归神经网络的人体骨架行为识别！

全球人工智能

13+阅读 · 2017年12月15日

相关论文

Total3DUnderstanding: Joint Layout, Object Pose and Mesh Reconstruction for Indoor Scenes from a Single Image

Total3DUnderstanding: Joint Layout, Object Pose and Mesh Reconstruction for Indoor Scenes from a Single Image

Arxiv

12+阅读 · 2020年2月27日

Sparse2Dense: From direct sparse odometry to dense 3D reconstruction

Sparse2Dense: From direct sparse odometry to dense 3D reconstruction

Arxiv

9+阅读 · 2019年3月21日

Auto-DeepLab: Hierarchical Neural Architecture Search for Semantic Image Segmentation

Auto-DeepLab: Hierarchical Neural Architecture Search for Semantic Image Segmentation

Arxiv

5+阅读 · 2019年1月10日

Music Transformer

Music Transformer

Arxiv

5+阅读 · 2018年12月12日

Learning Implicit Fields for Generative Shape Modeling

Learning Implicit Fields for Generative Shape Modeling

Arxiv

10+阅读 · 2018年12月6日

Chinese NER Using Lattice LSTM

Arxiv

5+阅读 · 2018年5月5日

Towards Neural Phrase-based Machine Translation

Arxiv

3+阅读 · 2018年4月18日

3D Reconstruction in Canonical Co-ordinate Space from Arbitrarily Oriented 2D Images

Arxiv

4+阅读 · 2018年1月23日

2D-3D Pose Consistency-based Conditional Random Fields for 3D Human Pose Estimation

Arxiv

3+阅读 · 2017年12月28日

Depth-Gated LSTM

Arxiv

4+阅读 · 2015年8月25日

大家都在搜

大型语言模型

国防科技创新

软件无线电

论文浅尝 - ICLR2020 | 通过神经逻辑归纳学习有效地解释

微信扫码咨询专知VIP会员