只用一张图+相机走位，AI就能脑补周围环境，来自华人团队

会员服务 ·

只用一张图+相机走位，AI就能脑补周围环境，来自华人团队 | CVPR2022

2022 年 3 月 21 日 量子位

明敏发自凹非寺
量子位 | 公众号 QbitAI

站在门口看一眼，AI就能脑补出房间里面长什么样：

是不是有线上VR看房那味儿了？

不只是室内效果，来个远景长镜头航拍也是so easy：

而且渲染出的图像通通都是高保真效果，仿佛是用真相机拍出来的一样。

最近一段时间，用2D图片合成3D场景的研究火了一波又一波。

但是过去的许多研究，合成场景往往都局限在一个范围比较小的空间里。

比如此前大火的NeRF，效果就是围绕画面主体展开。

这一次的新进展，则是将视角进一步延伸，更侧重让AI预测出远距离的画面。

比如给出一个房间门口，它就能合成穿过门、走过走廊后的场景了。

目前，该研究的相关论文已被CVPR2022接收。

输入单张画面和相机轨迹

让AI根据一个画面，就推测出后面的内容，这个感觉是不是和让AI写文章有点类似？

实际上，研究人员这次用到的正是NLP领域常用的Transformer。

他们利用自回归Transformer的方法，通过输入单个场景图像和摄像机运动轨迹，让生成的每帧画面与运动轨迹位置一一对应，从而合成出一个远距离的长镜头效果。

整个过程可以分为两个阶段。

第一阶段先预训练了一个VQ-GAN，可以把输入图像映射到token上。

VQ-GAN是一个基于Transformer的图像生成模型，其最大特点就是生成的图像非常高清。

在这部分，编码器会将图像编码为离散表示，解码器将表示映射为高保真输出。

第二阶段，在将图像处理成token后，研究人员用了类似GPT的架构来做自回归。

具体训练过程中，要将输入图像和起始相机轨迹位置编码为特定模态的token，同时添加一个解耦的位置输入P.E.。

然后，token被喂给自回归Transformer来预测图像。

模型从输入的单个图像开始推理，并通过预测前后帧来不断增加输入。

研究人员发现，并非每个轨迹时刻生成的帧都同样重要。因此，他们还利用了一个局部性约束来引导模型更专注于关键帧的输出。

这个局部性约束是通过摄像机轨迹来引入的。

基于两帧画面所对应的摄像机轨迹位置，研究人员可以定位重叠帧，并能确定下一帧在哪。

为了结合以上内容，他们利用MLP计算了一个“相机感知偏差”。

这种方法会使得在优化时更加容易，而且对保证生成画面的一致性上，起到了至关重要的作用。

实验结果

本项研究在RealEstate10K、Matterport3D数据集上进行实验。

结果显示，相较于不规定相机轨迹的模型，该方法生成图像的质量更好。

与离散相机轨迹的方法相比，该方法的效果也明显更好。

作者还对模型的注意力情况进行了可视化分析。

结果显示，运动轨迹位置附近贡献的注意力更多。

在消融实验上，结果显示该方法在Matterport3D数据集上，相机感知偏差和解耦位置的嵌入，都对提高图像质量和帧与帧之间的一致性有所帮助。

两位作者均是华人

Xuanchi Ren为香港科技大学本科生。

他曾在微软亚研院实习过，2021年暑期与Xiaolong Wang教授有过合作。

Xiaolong Wang是加州大学圣地亚哥分校助理教授。

他博士毕业于卡内基梅隆大学机器人专业。

研究兴趣有计算机视觉、机器学习和机器人等。特别自我监督学习、视频理解、常识推理、强化学习和机器人技术等领域。

论文地址：
https://xrenaa.github.io/look-outside-room/

— 完 —

「人工智能」、「智能汽车」微信社群邀你加入！

欢迎关注人工智能、智能汽车的小伙伴们加入我们，与AI从业者交流、切磋，不错过最新行业发展&技术进展。

ps.加好友请务必备注您的姓名-公司-职位哦~

点这里👇关注我，记得标星哦～

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见~

登录查看更多

知识荟萃

精品入门和进阶教程、论文和代码整理等

查看相关VIP内容、论文、资讯等

【CVPR2022】多视图聚合的大规模三维语义分割

专知会员服务

21+阅读 · 2022年4月20日

【CVPR2022】用于全身图像生成的 InsetGAN

专知会员服务

26+阅读 · 2022年3月17日

【南洋理工-CVPR2022】视觉语言模型的条件提示学习

专知会员服务

34+阅读 · 2022年3月13日

CVPR2022 | 多模态Transformer用于视频分割效果惊艳

专知会员服务

42+阅读 · 2022年3月12日

【CVPR2022】高分辨率和多样化的视频-文本预训练模型

专知会员服务

10+阅读 · 2022年3月6日

【CVPR2021】密集对比学习的自监督视觉预训练

专知会员服务

39+阅读 · 2021年5月16日

【CVPR2021】基于Transformer的视频分割领域

专知会员服务

38+阅读 · 2021年4月16日

[CVPR 2021] 序列到序列对比学习的文本识别

专知会员服务

29+阅读 · 2021年4月14日

英国杜伦大学「深度生成建模」大综述论文，21页pdf

专知会员服务

49+阅读 · 2021年3月16日

【CVPR2021】自监督几何感知

专知会员服务

46+阅读 · 2021年3月6日

Adobe把GAN搞成了缝合怪，凭空P出一张1024分辨率全身人像 | CVPR 2022

量子位

1+阅读 · 2022年3月22日

CVPR 2022 | 惊呆了！只用一张图+相机走位，AI就能脑补周围环境！

CVer

1+阅读 · 2022年3月22日

CVPR 2022｜只用一张图+相机走位，AI就能脑补周围环境！

极市平台

0+阅读 · 2022年3月21日

谷歌提出MaskGIT：掩码生成图像Transformer

CVer

2+阅读 · 2022年3月21日

CVPR2022 | 多模态Transformer用于视频分割效果惊艳

专知

0+阅读 · 2022年3月12日

3张图片生成一个手办3D模型！南加州大学华人博士提出新模型NeROIC，更真实！

新智元

1+阅读 · 2022年2月24日

撸猫何必要真猫，一张靓照也可以！斯坦福英伟达3D版神笔马良连屠两榜，3D合成7倍速

新智元

1+阅读 · 2021年12月25日

卫星图片重建洛杉矶3D模型，效果就像谷歌地球，港中大团队提出CityNeRF

量子位

0+阅读 · 2021年12月19日

虚拟在左，真实在右：德国学者用AI合成一亿像素逼真3D图像，可任意旋转

THU数据派

0+阅读 · 2021年10月19日

ICCV 2021 | 字节跳动利用单幅图片做三维重建！将NeRF、MPI结合，提出MINE新工作

计算机视觉life

5+阅读 · 2021年10月16日

动态环境下的实时高清大规模三维地形重建研究

国家自然科学基金

3+阅读 · 2015年12月31日

多目主动相机智能监控关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

车载全景序列图像的特征匹配方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于超声图像的静音语音识别关键技术研究

国家自然科学基金

1+阅读 · 2013年12月31日

自我运动中Optic flow对物体运动知觉的影响机制研究

国家自然科学基金

0+阅读 · 2013年12月31日

结合2D图像和3D点云数据的城市建筑物重建关键技术研究

国家自然科学基金

3+阅读 · 2012年12月31日

可编辑三维电视中多视点视图合成理论与方法

国家自然科学基金

0+阅读 · 2012年12月31日

视角无关的动作识别与行为建模方法研究

国家自然科学基金

0+阅读 · 2010年12月31日

基于2D视频视觉关注度的3D重建方法研究

国家自然科学基金

0+阅读 · 2009年12月31日

单目移动拍摄下基于隐式形状模型的行人检测方法研究

国家自然科学基金

0+阅读 · 2008年12月31日

GazeOnce: Real-Time Multi-Person Gaze Estimation

Arxiv

0+阅读 · 2022年4月20日

Disentangling Spatial-Temporal Functional Brain Networks via Twin-Transformers

Arxiv

0+阅读 · 2022年4月20日

Dual-Domain Image Synthesis using Segmentation-Guided GAN

Arxiv

0+阅读 · 2022年4月19日

Unsupervised Learning of Efficient Geometry-Aware Neural Articulated Representations

Arxiv

0+阅读 · 2022年4月19日

Propagating uncertainty in a network of energy models

Arxiv

0+阅读 · 2022年4月19日

Heavy Rain Face Image Restoration: Integrating Physical Degradation Model and Facial Component Guided Adversarial Learning

Arxiv

0+阅读 · 2022年4月18日

VoiceFixer: A Unified Framework for High-Fidelity Speech Restoration

Arxiv

0+阅读 · 2022年4月17日

PL-VINS: Real-Time Monocular Visual-Inertial SLAM with Point and Line Features

Arxiv

1+阅读 · 2022年4月15日

Cross-Domain Few-Shot Graph Classification

Arxiv

13+阅读 · 2022年1月20日

Deformable Style Transfer

Arxiv

14+阅读 · 2020年3月24日

VIP会员