成为VIP会员查看完整内容
VIP会员码认证
首页
主题
发现
会员
服务
注册
·
登录
0
Facebook新研究:加强版CNN,2D照片也能模拟3D效果
2020 年 3 月 2 日
AI科技评论
作者 | Facebook AI
编译 | 丛末、蒋宝尚
还记得Facebook在2018年推出的一种名为“摄影测量”的技术么?
现在Facebook已经将此项技术完善,并集成到了APP上,也就是说,在FB软件上,用静态的2D照片,也能体会到丰满的3D立体感。
转换成的3D照片“看上去”包含一定的深度信息,并且在左右晃动时有着沉浸式的体验,感觉像是一个小范围的6DoF短片。
只需1秒,2D照片也能模拟3D效果
2018年推出的3D功能
虽然,FB 在2018已经推出的3D照片功能,并且能够以一种全新的沉浸式的格式与家人和朋友共享照片。不过,这项功能依赖于双摄像头“人像模式”,只能在新的更高端的智能手机上使用,而无法在只有后置单摄像头的老款移动设备上使用。 为了让这项 3D 照片功能惠及更多人,Facebook 采用最先进的机器学习技术,为几乎所有的标准 2D 格式的照片生成 3D 照片。
该系统能够为任意图片推导出3D架构,无论是刚刚用安卓或 iOS 设备上的单摄像头拍的新照片,还是最近上传到手机或电脑上的几十年前的老图片。
不仅如此,使用最先进的双摄像头设备的人也能够从中受益,因为他们现在可以使用前置单摄像头也能够进行3D自拍了。使用iPhone 7及以上版本的苹果手机以及中端及以上的安卓机的人,现在都可以在Facebook APP上使用这一功能。
动画展示了如何估计 2D 图片不同区域的深度来构建 3D 图像。
构建这种增强版的3D照片技术需要克服各种各样的技术挑战,例如训练一个能够正确推断非常多种主题图片的 3D位置的模型,并优化系统让它能够瞬间在搭载传统移动处理器的设备上运行。
为了克服这些挑战,Facebook 在数百万对对外开放的3D图像及其对应的深度图上训练卷积神经网络(CNN),并使用了 Facebook AI 研究院此前开发的各种移动设备优化技术,如FBNet 、 ChamNet等。
下面来看构建 3D 照片功能的细节:
小狗的原照片是用单摄像头拍的,并且没有任何深度图数据,Facebook 的3D 照片功能将原照片转成了3D格式的照片。
移动设备上,也能够实现高性能
给定一个标准的RGB 图像,3D 照片卷积神经网络能够估计出每个像素离照相机的距离,具体有以下四个步骤:
由一组可参数化、可移动优化的神经网络构建模块构成的网络架构;
自动化架构搜索,来找到这些模块的有效配置,从而使系统在不到一秒钟的时间内就能够在各种设备上执行任务;
进行量化感知训练,从而能够在移动设备上使用高性能的INT8 量化,同时最小化量化过程中潜在的质量下降;
大量训练数据来源于对外开放的3D 照片。
神经网络构建模块
论文下载地址:https://research.fb.com/wp-content/uploads/2019/05/FBNet-Hardware-Aware-Efficient-ConvNet-Design-via-Differentiable-Neural-Architecture-Search.pdf?
关于神经网络的构建基块,其受到FBNet启发,作为一套针对移动设备进行优化的ConvNet架构体系,其构建块由逐点卷积、可选上采样、K x K深度卷积和附加逐点卷积组成。
在具体工作中,Facebook实现了一个U-Net风格的体系结构。这个结构的编码器和解码器分别包含五个阶段,每个阶段对应不同的空间分辨率。
网络架构概述
自动化架构搜索
为了找到一个有效的架构配置,Facebook使用其开发的算法——ChamNet 来自动化搜索过程。
ChamNet 算法迭代地从搜索空间采样点来训练一个准确度预测器。该预测器用来加速遗传搜索,从而找到在满足特定资源约束的情况下最大化预测准确度的模型。
在该设置下,他们使用了一个可以改变扩展因子和每个模块的输出通道数的搜索空间,生成了3.4x1022个可能的架构。之后,他们使用了800块Tesla V100 的GPU,在将近3天的时间里完成了这一搜索,并且设置和调整了模型架构上的FLOP 约束以实现不同的操作点。
量化感知训练(QAT,Quantization-aware training)
默认情况下,模型使用单精度浮点权重和激活函数进行训练,但是将权重和激活都数统一采取8位整数表示,具有显著的优势。更为具体有一点,用8-bit整数操作代替32-bit的浮点操作能够节省3/4的储存空间。
用我们的深度估计神经网络将其转换为3D图像。
由于Facebook AI的QNNPACK等调优的库已经集成到PyTorch中,基于Int8操作的吞吐量也比他们的Float32同行高得多。使用量化感知训练(QAT)来避免由于量化而导致的不可接受的质量下降。值得一提的是,QAT现在已经是PyTorch的一部分了,它能在训练期间模拟量化,并支持反向传播,从而消除了训练和生产性能之间的差距。
复杂场景的2D照片转换3D效果也不错
寻找创建3D体验的新方法
除了改进深度学习算法之外,Facebook还致力为手机等移动设备提供更质量的3D视频,准确的说是提供深度估算。相比照片,视频的难度要更大,因此要保证相邻的2帧之间深度信息是一致的。所以可以猜测的是,视频的深度信息估计将开创更多可能性,因为同一对象的多个观测可以为高度精确的深度估计提供更多的信号。
据Facebook介绍,随着神经网络性能的不断提升,他们还将探索在AR领域的实际应用,例如如何高效的利用深度估计以及空间推理。
毫无疑问,这项工作会帮助我们提高对3D场景的理解,也可以提升机器导航软件的性能。
Via https://ai.facebook.com/blog/-powered-by-ai-turning-any-2d-photo-into-3d-using-convolutional-neural-nets/
登录查看更多
点赞并收藏
0
暂时没有读者
0
权益说明
本文档仅做收录索引使用,若发现您的权益受到侵害,请立即联系客服(微信: zhuanzhi02,邮箱:bd@zhuanzhi.ai),我们会尽快为您处理
相关内容
3D
关注
34
3D是英文“Three Dimensions”的简称,中文是指三维、三个维度、三个坐标,即有长、有宽、有高,换句话说,就是立体的,是相对于只有长和宽的平面(2D)而言。
【ICML2020-华为港科大】RNN和LSTM有长期记忆吗?
专知会员服务
74+阅读 · 2020年6月25日
【SIGGRAPH 2020】人像阴影处理,Portrait Shadow Manipulation
专知会员服务
28+阅读 · 2020年5月19日
3D目标检测进展综述
专知会员服务
191+阅读 · 2020年4月24日
【华为-诺亚实验室】动态BERT, Dynamic BERT with Adaptive Width and Depth
专知会员服务
23+阅读 · 2020年4月13日
【CVPR2020-Facebook AI】单样本自适应域脸生成,One-Shot Domain Adaptation
专知会员服务
28+阅读 · 2020年4月6日
【FAIR-CVPR2020】PIFuHD:多级像素对齐隐式功能,实现高分辨率三维人体数字化
专知会员服务
28+阅读 · 2020年4月5日
Google 发布图片配对基准及挑战:从系列图像重建三维物体和建筑物
专知会员服务
39+阅读 · 2020年4月4日
【CVPR2020-Oral-牛津-Facebook】从单个图像进行端到端的视图合成,SynSin-View Synthesis
专知会员服务
28+阅读 · 2020年3月26日
基于动态时空图CNNs的交通流预测,Dynamic Spatio-temporal Graph-based CNNs for Traffic Flow Prediction
专知会员服务
134+阅读 · 2020年3月8日
【CCF优秀博士学位论文奖-2019】融合结构先验的图像及视频去模糊研究,天津大学任文琦
专知会员服务
47+阅读 · 2019年11月8日
Google 发布图片配对基准及挑战:从系列图像重建三维物体和建筑物
专知
8+阅读 · 2020年4月4日
CVPR2019 |AR版“神笔马良”:从单张2D图片建立3D人物运动模型,华盛顿大学与Facebook 3D重建
极市平台
7+阅读 · 2019年6月3日
照片上的人出来了!云从3D人体重建登顶三项榜单,一张照片就能生成3D形象
量子位
4+阅读 · 2019年3月20日
Facebook实时人体姿态估计:Dense Pose及其应用展望
机器之心
9+阅读 · 2019年2月10日
谷歌新研究用深度学习合成运动模糊效果,手抖也能拍出摄影师级照片
新智元
7+阅读 · 2018年12月28日
【学界】谷歌NeurIPS 2018论文:GAN生成3D模型,图像自带逼真效果
GAN生成式对抗网络
7+阅读 · 2018年12月7日
开源项目VNect使用普通手机摄像头进行动作捕捉,媲美深度摄像头
AR酱
9+阅读 · 2018年5月12日
DensePose:将2D图像像素映射到人体3D表面以实现高效姿态估计
论智
7+阅读 · 2018年2月5日
密集人体姿态估计:2D图像帧可实时生成UV贴图(附论文)
量子位
5+阅读 · 2018年2月4日
学界 | UC Berkeley新研究:多视角图像3D模型重建技术
机器之心
10+阅读 · 2017年9月10日
3D Deep Learning on Medical Images: A Review
Arxiv
12+阅读 · 2020年4月1日
Deformable Style Transfer
Arxiv
14+阅读 · 2020年3月24日
Attentive Convolution: Equipping CNNs with RNN-style Attention Mechanisms
Arxiv
3+阅读 · 2018年11月13日
Scene Coordinate and Correspondence Learning for Image-Based Localization
Arxiv
5+阅读 · 2018年7月23日
Convolutional 2D Knowledge Graph Embeddings
Arxiv
29+阅读 · 2018年4月6日
SEARNN: Training RNNs with Global-Local Losses
Arxiv
5+阅读 · 2018年1月29日
Dynamic Weight Alignment for Convolutional Neural Networks
Arxiv
6+阅读 · 2018年1月25日
3D Reconstruction in Canonical Co-ordinate Space from Arbitrarily Oriented 2D Images
Arxiv
4+阅读 · 2018年1月23日
Fluorescence Microscopy Image Segmentation Using Convolutional Neural Network With Generative Adversarial Networks
Arxiv
18+阅读 · 2018年1月22日
Depth-Gated LSTM
Arxiv
4+阅读 · 2015年8月25日
VIP会员
自助开通(推荐)
客服开通
详情
相关主题
3D
Facebook
卷积神经网络
卷积
神经网络
ConvNets
相关VIP内容
【ICML2020-华为港科大】RNN和LSTM有长期记忆吗?
专知会员服务
74+阅读 · 2020年6月25日
【SIGGRAPH 2020】人像阴影处理,Portrait Shadow Manipulation
专知会员服务
28+阅读 · 2020年5月19日
3D目标检测进展综述
专知会员服务
191+阅读 · 2020年4月24日
【华为-诺亚实验室】动态BERT, Dynamic BERT with Adaptive Width and Depth
专知会员服务
23+阅读 · 2020年4月13日
【CVPR2020-Facebook AI】单样本自适应域脸生成,One-Shot Domain Adaptation
专知会员服务
28+阅读 · 2020年4月6日
【FAIR-CVPR2020】PIFuHD:多级像素对齐隐式功能,实现高分辨率三维人体数字化
专知会员服务
28+阅读 · 2020年4月5日
Google 发布图片配对基准及挑战:从系列图像重建三维物体和建筑物
专知会员服务
39+阅读 · 2020年4月4日
【CVPR2020-Oral-牛津-Facebook】从单个图像进行端到端的视图合成,SynSin-View Synthesis
专知会员服务
28+阅读 · 2020年3月26日
基于动态时空图CNNs的交通流预测,Dynamic Spatio-temporal Graph-based CNNs for Traffic Flow Prediction
专知会员服务
134+阅读 · 2020年3月8日
【CCF优秀博士学位论文奖-2019】融合结构先验的图像及视频去模糊研究,天津大学任文琦
专知会员服务
47+阅读 · 2019年11月8日
热门VIP内容
开通专知VIP会员 享更多权益服务
军用数据链:武器装备神经,联合作战基石,31页pdf
【ETHZ博士论文】超越像素深度:通过深度学习增强超分辨率技术,198页pdf
2018∼2023年国家自然科学基金人工智能学科人才项目申请及资助综述
【NeurIPS2024】《AmoebaLLM:构建任意形状的大型语言模型以实现高效和即时部署》
相关资讯
Google 发布图片配对基准及挑战:从系列图像重建三维物体和建筑物
专知
8+阅读 · 2020年4月4日
CVPR2019 |AR版“神笔马良”:从单张2D图片建立3D人物运动模型,华盛顿大学与Facebook 3D重建
极市平台
7+阅读 · 2019年6月3日
照片上的人出来了!云从3D人体重建登顶三项榜单,一张照片就能生成3D形象
量子位
4+阅读 · 2019年3月20日
Facebook实时人体姿态估计:Dense Pose及其应用展望
机器之心
9+阅读 · 2019年2月10日
谷歌新研究用深度学习合成运动模糊效果,手抖也能拍出摄影师级照片
新智元
7+阅读 · 2018年12月28日
【学界】谷歌NeurIPS 2018论文:GAN生成3D模型,图像自带逼真效果
GAN生成式对抗网络
7+阅读 · 2018年12月7日
开源项目VNect使用普通手机摄像头进行动作捕捉,媲美深度摄像头
AR酱
9+阅读 · 2018年5月12日
DensePose:将2D图像像素映射到人体3D表面以实现高效姿态估计
论智
7+阅读 · 2018年2月5日
密集人体姿态估计:2D图像帧可实时生成UV贴图(附论文)
量子位
5+阅读 · 2018年2月4日
学界 | UC Berkeley新研究:多视角图像3D模型重建技术
机器之心
10+阅读 · 2017年9月10日
相关论文
3D Deep Learning on Medical Images: A Review
Arxiv
12+阅读 · 2020年4月1日
Deformable Style Transfer
Arxiv
14+阅读 · 2020年3月24日
Attentive Convolution: Equipping CNNs with RNN-style Attention Mechanisms
Arxiv
3+阅读 · 2018年11月13日
Scene Coordinate and Correspondence Learning for Image-Based Localization
Arxiv
5+阅读 · 2018年7月23日
Convolutional 2D Knowledge Graph Embeddings
Arxiv
29+阅读 · 2018年4月6日
SEARNN: Training RNNs with Global-Local Losses
Arxiv
5+阅读 · 2018年1月29日
Dynamic Weight Alignment for Convolutional Neural Networks
Arxiv
6+阅读 · 2018年1月25日
3D Reconstruction in Canonical Co-ordinate Space from Arbitrarily Oriented 2D Images
Arxiv
4+阅读 · 2018年1月23日
Fluorescence Microscopy Image Segmentation Using Convolutional Neural Network With Generative Adversarial Networks
Arxiv
18+阅读 · 2018年1月22日
Depth-Gated LSTM
Arxiv
4+阅读 · 2015年8月25日
大家都在搜
汽车智能化
MoE
大型语言模型
时间序列
无人机蜂群
大模型
笛卡尔
PRML
无人艇
出海产品从 0 到 1 该怎么做
Top
提示
微信扫码
咨询专知VIP会员与技术项目合作
(加微信请备注: "专知")
微信扫码咨询专知VIP会员
Top