We propose ReCamDriving, a purely vision-based, camera-controlled novel-trajectory video generation framework. While repair-based methods fail to restore complex artifacts and LiDAR-based approaches rely on sparse and incomplete cues, ReCamDriving leverages dense and scene-complete 3DGS renderings for explicit geometric guidance, achieving precise camera-controllable generation. To mitigate overfitting to restoration behaviors when conditioned on 3DGS renderings, ReCamDriving adopts a two-stage training paradigm: the first stage uses camera poses for coarse control, while the second stage incorporates 3DGS renderings for fine-grained viewpoint and geometric guidance. Furthermore, we present a 3DGS-based cross-trajectory data curation strategy to eliminate the train-test gap in camera transformation patterns, enabling scalable multi-trajectory supervision from monocular videos. Based on this strategy, we construct the ParaDrive dataset, containing over 110K parallel-trajectory video pairs. Extensive experiments demonstrate that ReCamDriving achieves state-of-the-art camera controllability and structural consistency.


翻译:我们提出了ReCamDriving,一种纯视觉的、相机控制的新轨迹视频生成框架。基于修复的方法无法恢复复杂的伪影,而基于LiDAR的方法依赖于稀疏且不完整的线索,与此不同,ReCamDriving利用密集且场景完整的3DGS渲染提供显式几何引导,实现了精确的相机可控生成。为了缓解在3DGS渲染条件下对修复行为的过拟合,ReCamDriving采用了两阶段训练范式:第一阶段使用相机位姿进行粗略控制,第二阶段则引入3DGS渲染以提供细粒度的视点和几何引导。此外,我们提出了一种基于3DGS的跨轨迹数据构建策略,以消除相机变换模式在训练与测试之间的差距,从而能够从单目视频中获得可扩展的多轨迹监督。基于此策略,我们构建了ParaDrive数据集,其中包含超过11万个平行轨迹视频对。大量实验表明,ReCamDriving在相机可控性和结构一致性方面达到了最先进的水平。

0
下载
关闭预览

相关内容

【CVPR2024】ViewDiff: 3D一致的图像生成与文本到图像模型
专知会员服务
30+阅读 · 2024年3月10日
【NeurIPS2019】图变换网络:Graph Transformer Network
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员