A classical problem in computer vision is to infer a 3D scene representation from few images that can be used to render novel views at interactive rates. Previous work focuses on reconstructing pre-defined 3D representations, e.g. textured meshes, or implicit representations, e.g. radiance fields, and often requires input images with precise camera poses and long processing times for each novel scene. In this work, we propose the Scene Representation Transformer (SRT), a method which processes posed or unposed RGB images of a new area, infers a "set-latent scene representation", and synthesises novel views, all in a single feed-forward pass. To calculate the scene representation, we propose a generalization of the Vision Transformer to sets of images, enabling global information integration, and hence 3D reasoning. An efficient decoder transformer parameterizes the light field by attending into the scene representation to render novel views. Learning is supervised end-to-end by minimizing a novel-view reconstruction error. We show that this method outperforms recent baselines in terms of PSNR and speed on synthetic datasets, including a new dataset created for the paper. Further, we demonstrate that SRT scales to support interactive visualization and semantic segmentation of real-world outdoor environments using Street View imagery.


翻译:计算机视觉的一个典型问题是,从能够用来以交互速度提供新观点的少数图像中推断出一个 3D 场景显示方式。 先前的工作侧重于重建预定义的 3D 显示方式, 例如, 纹线模头, 或隐含的表示方式, 例如, 亮度字段, 通常需要输入图像, 配有精确的相机, 并且每个新场景都有很长的处理时间。 在这项工作中, 我们提议了场景显示变异器( SRT), 这是一种处理新区域显示或未保存的 RGB 图像的方法, 推断出一个“ 固定的场景显示方式”, 并合成前向前方传递新观点。 为了计算场景表现, 我们建议将视野变异器概括为图像集集集, 促成全球信息整合, 并由此推理 3D 推理 。 一个高效的解码变异器将光场参数化器通过参加场景显示新观点来监督最终到最后的学习过程, 尽量减少新观点重建错误。 我们显示这一方法超越了当前PSNR的基线基线, 以及合成图象转换的快速图像的图像显示,, 将显示我们所创建到真实的图像的图像环境的图像的深度显示到真实环境, 。

0
下载
关闭预览

相关内容

IFIP TC13 Conference on Human-Computer Interaction是人机交互领域的研究者和实践者展示其工作的重要平台。多年来,这些会议吸引了来自几个国家和文化的研究人员。官网链接:http://interact2019.org/
专知会员服务
31+阅读 · 2021年6月12日
最新《Transformers模型》教程,64页ppt
专知会员服务
306+阅读 · 2020年11月26日
因果图,Causal Graphs,52页ppt
专知会员服务
246+阅读 · 2020年4月19日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
58+阅读 · 2019年10月17日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
“CVPR 2020 接受论文列表 1470篇论文都在这了
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
视觉机械臂 visual-pushing-grasping
CreateAMind
3+阅读 · 2018年5月25日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
胶囊网络资源汇总
论智
7+阅读 · 2018年3月10日
Arxiv
9+阅读 · 2021年10月26日
Arxiv
14+阅读 · 2021年3月10日
Arxiv
19+阅读 · 2020年12月23日
VIP会员
相关资讯
“CVPR 2020 接受论文列表 1470篇论文都在这了
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
视觉机械臂 visual-pushing-grasping
CreateAMind
3+阅读 · 2018年5月25日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
胶囊网络资源汇总
论智
7+阅读 · 2018年3月10日
Top
微信扫码咨询专知VIP会员