动态视图合成(Dynamic View Synthesis)取得了显著进展,然而从非校准、随手拍视频中重建场景仍然具有挑战性,主要原因在于优化过程缓慢以及参数估计复杂。本文提出 INSTANT4D,一种单目重建系统,利用原生的 4D 表征高效处理随手拍视频序列,在无需校准相机或深度传感器的条件下,仅需数分钟即可完成。 我们的方法首先通过深度视觉 SLAM 实现几何恢复,随后采用网格剪枝(grid pruning)优化场景表征。该设计在保持几何完整性的同时显著减少冗余,将模型大小压缩至原始规模的 10% 以下。为高效处理时序动态,我们引入了一种简化的 4D 高斯表征(4D Gaussian representation),实现了 30 倍加速,将训练时间缩短至 2 分钟以内,同时在多个基准测试上保持了有竞争力的性能。 在 Dycheck 数据集或典型的 200帧视频上,我们的方法能够在 10 分钟内完成单个视频的重建。进一步地,我们将模型应用于真实场景视频,展示了其良好的泛化能力。 项目主页:https://instant4d.github.io/