Neural radiance fields have made a remarkable breakthrough in the novel view synthesis task at the 3D static scene. However, for the 4D circumstance (e.g., dynamic scene), the performance of the existing method is still limited by the capacity of the neural network, typically in a multilayer perceptron network (MLP). In this paper, we utilize 3D Voxel to model the 4D neural radiance field, short as V4D, where the 3D voxel has two formats. The first one is to regularly model the 3D space and then use the sampled local 3D feature with the time index to model the density field and the texture field by a tiny MLP. The second one is in look-up tables (LUTs) format that is for the pixel-level refinement, where the pseudo-surface produced by the volume rendering is utilized as the guidance information to learn a 2D pixel-level refinement mapping. The proposed LUTs-based refinement module achieves the performance gain with little computational cost and could serve as the plug-and-play module in the novel view synthesis task. Moreover, we propose a more effective conditional positional encoding toward the 4D data that achieves performance gain with negligible computational burdens. Extensive experiments demonstrate that the proposed method achieves state-of-the-art performance at a low computational cost.
翻译:在 3D 静态场景的新视角合成任务中, 神经光亮场取得了显著突破。 但是, 在 3D 静态场景的新视角合成任务中, 3D Voxel 已经取得了显著突破。 但是, 在 4D 情况下( 例如动态场景), 现有方法的性能仍然受到神经网络能力的限制, 通常是多层透视网络( MLP ) 。 在本文中, 我们使用 3D Voxel 模型来模拟 4D 神经光亮场, 简称为 V4D, 3D voxel 有两个格式。 第一个是定期模拟 3D 空间, 然后用一个小 MLP 模拟密度场和纹理场的时间指数抽样当地 3D 3D 3D 特征 。 第二种是 神经网络 网络 网络, 通常在 外观光谱表( LUT) 格式上, 通常使用 3D 3D ( LUTs) 格式的 格式 格式, 模式 。,, 使用 3D 3D 3D 3D 功能 功能 3D 3D 功能 3D 功能 功能 功能, 的 和 3D 的 的 功能 功能 功能, 和 3D 模型可以 模拟 模拟 模拟一个小 MLP 模拟 的 模拟 模拟 模拟 模拟 模拟 模拟 模拟 模拟 和, 和 和 模拟 模拟 和 微缩写式, 微变式的 模拟 模拟 模拟 模拟 模拟, 模拟, 模拟 模拟 模拟 模拟 模拟 模拟密度场景域域域域 和 模拟 模拟 模拟 。 第二个 模拟 。 第二个 和,,, 和, 4LLPP 模拟 。 第二个 组合 。 第二个 组合