动态单目视频解耦合技术用于动态视角合成 (Decoupling Dynamic Monocular Videos for Dynamic View Synthesis) - 专知论文

会员服务 ·

0

耦合 · 合成 · 预处理 · 一致 · 解耦 ·

2023 年 4 月 4 日

Decoupling Dynamic Monocular Videos for Dynamic View Synthesis

翻译：动态单目视频解耦合技术用于动态视角合成

Meng You,Junhui Hou

The challenge of dynamic view synthesis from dynamic monocular videos, i.e., synthesizing novel views for free viewpoints given a monocular video of a dynamic scene captured by a moving camera, mainly lies in accurately modeling the dynamic objects of a scene using limited 2D frames, each with a varying timestamp and viewpoint. Existing methods usually require pre-processed 2D optical flow and depth maps by additional methods to supervise the network, making them suffer from the inaccuracy of the pre-processed supervision and the ambiguity when lifting the 2D information to 3D. In this paper, we tackle this challenge in an unsupervised fashion. Specifically, we decouple the motion of the dynamic objects into object motion and camera motion, respectively regularized by proposed unsupervised surface consistency and patch-based multi-view constraints. The former enforces the 3D geometric surfaces of moving objects to be consistent over time, while the latter regularizes their appearances to be consistent across different viewpoints. Such a fine-grained motion formulation can alleviate the learning difficulty for the network, thus enabling it to produce not only novel views with higher quality but also more accurate scene flows and depth than existing methods requiring extra supervision. We will make the code publicly available.

翻译：挑战在于如何准确地对动态场景进行建模，给定由移动摄像机拍摄的动态单目视频，即从动态单目视频中对场景进行重构，合成自由视点。现有方法通常需要通过预处理光流和深度图来监控网络，使它们受到预处理监控的不准确性和将2D信息提升到3D时的歧义的影响。本文提出一种无监督的方法来解决这一挑战。具体地，我们将动态物体的运动分解为物体运动和摄像机运动，分别通过所提出的无监督表面一致性和基于图块的多视图约束进行规范。前者使移动物体的三维几何表面在时间上保持一致，后者使它们的外观在不同视角下保持一致。这样的精细运动描述可以减轻网络的学习难度，从而使其能够产生更高质量的新视角，以及比需要额外监督的现有方法更准确的场景流和深度。我们将公开代码。

0

相关内容

【AAAI2023】DPText-DETR: 基于动态点query的场景文本检测，更高更快更鲁棒

【AAAI2023】DPText-DETR: 基于动态点query的场景文本检测，更高更快更鲁棒

专知会员服务

17+阅读 · 2023年1月23日

【CVPR 2022】基于时空解耦与重耦的RGB-D动作识别 Decoupling and Recoupling Spatiotemporal Representation for RGB-D-based Motion Recognition

【CVPR 2022】基于时空解耦与重耦的RGB-D动作识别 Decoupling and Recoupling Spatiotemporal Representation for RGB-D-based Motion Recognition

专知会员服务

14+阅读 · 2022年3月19日

【CVPR 2022】paper解读——从头盔信号中解析生成3D姿势，这为AR/VR创造可信虚拟形象迈出了重要一步，FLAG: Flow-based 3D Avatar Generation from Sparse Observations

专知会员服务

19+阅读 · 2022年3月6日

【CVPR 2022】从大量非正式视频中构建可动画的3D神经模型，BANMo: Building Animatable 3D Neural Models from Many Casual Videos

【CVPR 2022】从大量非正式视频中构建可动画的3D神经模型，BANMo: Building Animatable 3D Neural Models from Many Casual Videos

专知会员服务

25+阅读 · 2022年3月3日

【CVPR 2022】单目3D语义场景完成框架，MonoScene: Monocular 3D Semantic Scene Completion

【CVPR 2022】单目3D语义场景完成框架，MonoScene: Monocular 3D Semantic Scene Completion

专知会员服务

15+阅读 · 2022年3月3日

MonoGRNet：单目3D目标检测的通用框架（TPAMI2021）

MonoGRNet：单目3D目标检测的通用框架（TPAMI2021）

专知会员服务

18+阅读 · 2021年5月3日

CVPR 2020 | MetaFuse：用于人体姿态估计的预训练信息融合模型

CVPR 2020 | MetaFuse：用于人体姿态估计的预训练信息融合模型

专知会员服务

25+阅读 · 2020年4月2日

【CVPR2020-Oral-牛津-Facebook】从单个图像进行端到端的视图合成，SynSin-View Synthesis

【CVPR2020-Oral-牛津-Facebook】从单个图像进行端到端的视图合成，SynSin-View Synthesis

专知会员服务

29+阅读 · 2020年3月26日

Deep Learning Based Detection and Correction of Cardiac MR Motion Artefacts During Reconstruction for High-Quality Segmentation

Deep Learning Based Detection and Correction of Cardiac MR Motion Artefacts During Reconstruction for High-Quality Segmentation

专知会员服务

59+阅读 · 2019年10月17日

[综述]深度学习下的场景文本检测与识别

[综述]深度学习下的场景文本检测与识别

专知会员服务

78+阅读 · 2019年10月10日

GNN 新基准！Long Range Graph Benchmark

GNN 新基准！Long Range Graph Benchmark

图与推荐

0+阅读 · 2022年10月18日

Multi-Task Learning的几篇综述文章

Multi-Task Learning的几篇综述文章

深度学习自然语言处理

15+阅读 · 2020年6月15日

【泡泡一分钟】用于视角可变重定位的语义地图构建

【泡泡一分钟】用于视角可变重定位的语义地图构建

泡泡机器人SLAM

19+阅读 · 2019年10月21日

【泡泡图灵智库】DynaSLAM：动态场景中的追踪、建图和修复（arXiv）

【泡泡图灵智库】DynaSLAM：动态场景中的追踪、建图和修复（arXiv）

泡泡机器人SLAM

13+阅读 · 2019年1月9日

【泡泡一分钟】用于评估视觉惯性里程计的TUM VI数据集

【泡泡一分钟】用于评估视觉惯性里程计的TUM VI数据集

泡泡机器人SLAM

11+阅读 · 2019年1月4日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

43+阅读 · 2019年1月3日

【泡泡前沿追踪】跟踪SLAM前沿动态系列之IROS2018

【泡泡前沿追踪】跟踪SLAM前沿动态系列之IROS2018

泡泡机器人SLAM

29+阅读 · 2018年10月28日

【泡泡一分钟】动态环境下稳健的单目SLAM

【泡泡一分钟】动态环境下稳健的单目SLAM

泡泡机器人SLAM

13+阅读 · 2018年3月22日

【论文推荐】最新7篇视觉问答（VQA）相关论文—解释、读写记忆网络、逆视觉问答、视觉推理、可解释性、注意力机制、计数

【论文推荐】最新7篇视觉问答（VQA）相关论文—解释、读写记忆网络、逆视觉问答、视觉推理、可解释性、注意力机制、计数

专知

30+阅读 · 2018年3月22日

【论文推荐】最新六篇视觉问答（VQA）相关论文—盲人问题、物体计数、多模态解释、视觉关系、对抗性网络、对偶循环注意力

【论文推荐】最新六篇视觉问答（VQA）相关论文—盲人问题、物体计数、多模态解释、视觉关系、对抗性网络、对偶循环注意力

专知

32+阅读 · 2018年2月28日

基于深度图融合的大场景多视图立体重建研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于射频谱和二维相位图及控制平面协同的动态光网络跨层光性能监测

国家自然科学基金

0+阅读 · 2014年12月31日

基于全向深度视觉的高精度人体肢体运动三维重建研究

国家自然科学基金

0+阅读 · 2014年12月31日

含旋轨耦合的双电离和双电子亲和运动方程耦合簇方法

国家自然科学基金

0+阅读 · 2014年12月31日

多臂两亲性嵌合肽的设计、合成及基因/药物共传递

国家自然科学基金

0+阅读 · 2013年12月31日

基于单张低精度深度图的实时精确三维曲面重建

国家自然科学基金

0+阅读 · 2012年12月31日

新型螯合性表面活性剂淋洗修复重金属-有机物复合污染土壤的作用机制

国家自然科学基金

0+阅读 · 2012年12月31日

基于边缘点的折反射图像立体匹配与三维重建研究

国家自然科学基金

0+阅读 · 2009年12月31日

基于张量表示的全动态场景全局光照实时计算方法

国家自然科学基金

0+阅读 · 2009年12月31日

基于运动视觉的织物动态特性研究

国家自然科学基金

0+阅读 · 2008年12月31日

RC-BEVFusion: A Plug-In Module for Radar-Camera Bird's Eye View Feature Fusion

Arxiv

0+阅读 · 2023年5月25日

Confronting Ambiguity in 6D Object Pose Estimation via Score-Based Diffusion on SE(3)

Arxiv

0+阅读 · 2023年5月25日

Topic-Guided Self-Introduction Generation for Social Media Users

Arxiv

0+阅读 · 2023年5月24日

REC-MV: REconstructing 3D Dynamic Cloth from Monocular Videos

Arxiv

0+阅读 · 2023年5月23日

NeRFVS: Neural Radiance Fields for Free View Synthesis via Geometry Scaffolds

Arxiv

0+阅读 · 2023年5月23日

Cross3DVG: Baseline and Dataset for Cross-Dataset 3D Visual Grounding on Different RGB-D Scans

Arxiv

0+阅读 · 2023年5月23日

Cross-Modal Object Tracking: Modality-Aware Representations and A Unified Benchmark

Arxiv

14+阅读 · 2021年11月11日

3D Object Detection for Autonomous Driving: A Survey

Arxiv

12+阅读 · 2021年6月21日

MVFNet: Multi-View Fusion Network for Efficient Video Recognition

Arxiv

13+阅读 · 2021年1月5日

Monocular Object and Plane SLAM in Structured Environments

Monocular Object and Plane SLAM in Structured Environments

Arxiv

12+阅读 · 2018年9月10日

VIP会员

文章信息

相关主题

相关VIP内容

【AAAI2023】DPText-DETR: 基于动态点query的场景文本检测，更高更快更鲁棒

【AAAI2023】DPText-DETR: 基于动态点query的场景文本检测，更高更快更鲁棒

专知会员服务

17+阅读 · 2023年1月23日

【CVPR 2022】基于时空解耦与重耦的RGB-D动作识别 Decoupling and Recoupling Spatiotemporal Representation for RGB-D-based Motion Recognition

【CVPR 2022】基于时空解耦与重耦的RGB-D动作识别 Decoupling and Recoupling Spatiotemporal Representation for RGB-D-based Motion Recognition

专知会员服务

14+阅读 · 2022年3月19日

【CVPR 2022】paper解读——从头盔信号中解析生成3D姿势，这为AR/VR创造可信虚拟形象迈出了重要一步，FLAG: Flow-based 3D Avatar Generation from Sparse Observations

专知会员服务

19+阅读 · 2022年3月6日

【CVPR 2022】从大量非正式视频中构建可动画的3D神经模型，BANMo: Building Animatable 3D Neural Models from Many Casual Videos

【CVPR 2022】从大量非正式视频中构建可动画的3D神经模型，BANMo: Building Animatable 3D Neural Models from Many Casual Videos

专知会员服务

25+阅读 · 2022年3月3日

【CVPR 2022】单目3D语义场景完成框架，MonoScene: Monocular 3D Semantic Scene Completion

【CVPR 2022】单目3D语义场景完成框架，MonoScene: Monocular 3D Semantic Scene Completion

专知会员服务

15+阅读 · 2022年3月3日

MonoGRNet：单目3D目标检测的通用框架（TPAMI2021）

MonoGRNet：单目3D目标检测的通用框架（TPAMI2021）

专知会员服务

18+阅读 · 2021年5月3日

CVPR 2020 | MetaFuse：用于人体姿态估计的预训练信息融合模型

CVPR 2020 | MetaFuse：用于人体姿态估计的预训练信息融合模型

专知会员服务

25+阅读 · 2020年4月2日

【CVPR2020-Oral-牛津-Facebook】从单个图像进行端到端的视图合成，SynSin-View Synthesis

【CVPR2020-Oral-牛津-Facebook】从单个图像进行端到端的视图合成，SynSin-View Synthesis

专知会员服务

29+阅读 · 2020年3月26日

Deep Learning Based Detection and Correction of Cardiac MR Motion Artefacts During Reconstruction for High-Quality Segmentation

Deep Learning Based Detection and Correction of Cardiac MR Motion Artefacts During Reconstruction for High-Quality Segmentation

专知会员服务

59+阅读 · 2019年10月17日

[综述]深度学习下的场景文本检测与识别

[综述]深度学习下的场景文本检测与识别

专知会员服务

78+阅读 · 2019年10月10日

热门VIP内容

开通专知VIP会员享更多权益服务

NeurIPS 2025 | 自动化所新作速览（一）

大型语言模型（LLM）赋能的知识图谱构建：综述

NeurIPS 2025 | 自动化所新作速览（二）

领域特定文本分类中的预训练语言模型新进展：系统综述

相关资讯

GNN 新基准！Long Range Graph Benchmark

GNN 新基准！Long Range Graph Benchmark

图与推荐

0+阅读 · 2022年10月18日

Multi-Task Learning的几篇综述文章

Multi-Task Learning的几篇综述文章

深度学习自然语言处理

15+阅读 · 2020年6月15日

【泡泡一分钟】用于视角可变重定位的语义地图构建

【泡泡一分钟】用于视角可变重定位的语义地图构建

泡泡机器人SLAM

19+阅读 · 2019年10月21日

【泡泡图灵智库】DynaSLAM：动态场景中的追踪、建图和修复（arXiv）

【泡泡图灵智库】DynaSLAM：动态场景中的追踪、建图和修复（arXiv）

泡泡机器人SLAM

13+阅读 · 2019年1月9日

【泡泡一分钟】用于评估视觉惯性里程计的TUM VI数据集

【泡泡一分钟】用于评估视觉惯性里程计的TUM VI数据集

泡泡机器人SLAM

11+阅读 · 2019年1月4日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

43+阅读 · 2019年1月3日

【泡泡前沿追踪】跟踪SLAM前沿动态系列之IROS2018

【泡泡前沿追踪】跟踪SLAM前沿动态系列之IROS2018

泡泡机器人SLAM

29+阅读 · 2018年10月28日

【泡泡一分钟】动态环境下稳健的单目SLAM

【泡泡一分钟】动态环境下稳健的单目SLAM

泡泡机器人SLAM

13+阅读 · 2018年3月22日

【论文推荐】最新7篇视觉问答（VQA）相关论文—解释、读写记忆网络、逆视觉问答、视觉推理、可解释性、注意力机制、计数

【论文推荐】最新7篇视觉问答（VQA）相关论文—解释、读写记忆网络、逆视觉问答、视觉推理、可解释性、注意力机制、计数

专知

30+阅读 · 2018年3月22日

【论文推荐】最新六篇视觉问答（VQA）相关论文—盲人问题、物体计数、多模态解释、视觉关系、对抗性网络、对偶循环注意力

【论文推荐】最新六篇视觉问答（VQA）相关论文—盲人问题、物体计数、多模态解释、视觉关系、对抗性网络、对偶循环注意力

专知

32+阅读 · 2018年2月28日

相关论文

RC-BEVFusion: A Plug-In Module for Radar-Camera Bird's Eye View Feature Fusion

Arxiv

0+阅读 · 2023年5月25日

Confronting Ambiguity in 6D Object Pose Estimation via Score-Based Diffusion on SE(3)

Arxiv

0+阅读 · 2023年5月25日

Topic-Guided Self-Introduction Generation for Social Media Users

Arxiv

0+阅读 · 2023年5月24日

REC-MV: REconstructing 3D Dynamic Cloth from Monocular Videos

Arxiv

0+阅读 · 2023年5月23日

NeRFVS: Neural Radiance Fields for Free View Synthesis via Geometry Scaffolds

Arxiv

0+阅读 · 2023年5月23日

Cross3DVG: Baseline and Dataset for Cross-Dataset 3D Visual Grounding on Different RGB-D Scans

Arxiv

0+阅读 · 2023年5月23日

Cross-Modal Object Tracking: Modality-Aware Representations and A Unified Benchmark

Arxiv

14+阅读 · 2021年11月11日

3D Object Detection for Autonomous Driving: A Survey

Arxiv

12+阅读 · 2021年6月21日

MVFNet: Multi-View Fusion Network for Efficient Video Recognition

Arxiv

13+阅读 · 2021年1月5日

Monocular Object and Plane SLAM in Structured Environments

Monocular Object and Plane SLAM in Structured Environments

Arxiv

12+阅读 · 2018年9月10日

相关基金

基于深度图融合的大场景多视图立体重建研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于射频谱和二维相位图及控制平面协同的动态光网络跨层光性能监测

国家自然科学基金

0+阅读 · 2014年12月31日

基于全向深度视觉的高精度人体肢体运动三维重建研究

国家自然科学基金

0+阅读 · 2014年12月31日

含旋轨耦合的双电离和双电子亲和运动方程耦合簇方法

国家自然科学基金

0+阅读 · 2014年12月31日

多臂两亲性嵌合肽的设计、合成及基因/药物共传递

国家自然科学基金

0+阅读 · 2013年12月31日

基于单张低精度深度图的实时精确三维曲面重建

国家自然科学基金

0+阅读 · 2012年12月31日

新型螯合性表面活性剂淋洗修复重金属-有机物复合污染土壤的作用机制

国家自然科学基金

0+阅读 · 2012年12月31日

基于边缘点的折反射图像立体匹配与三维重建研究

国家自然科学基金

0+阅读 · 2009年12月31日

基于张量表示的全动态场景全局光照实时计算方法

国家自然科学基金

0+阅读 · 2009年12月31日

基于运动视觉的织物动态特性研究

国家自然科学基金

0+阅读 · 2008年12月31日

微信扫码咨询专知VIP会员