我们正处于一个新技术时代的边缘,技术无缝地融入我们的日常生活。进入这个勇敢的新世界需要始终在线的人工智能和增强现实的融合。然而,我们仍然需要克服许多挑战才能实现这一愿景。这篇论文解决了仍然存在的三个关键挑战:3D重建、3D场景理解和3D场景编辑。增强现实应用要求对世界进行重建,并不断用新信息更新。因此,我们首先解决了在在线系统中逐步融合噪声和异常数据的挑战。我们从数据驱动的角度出发,利用学习到的场景表示,通过机器学习的力量提高现有方法的效率。然而,仅有空间意识是不够的。因此,我们转向3D场景理解,我们面对为3D语义分割模型注释数据集的高成本挑战。我们引入了一个自动化的语义注释流程,达到人类注释质量,将最先进模型的预测统一到一个共享的标签空间中,并通过3D提升进一步改进。此外,我们将在线重建流程扩展到语义映射,通过一个时空注意力机制克服有限的接收字段问题,这个机制有效地结合了2D和3D以及过去的信息。在最后部分,我们探索了使用神经辐射场进行3D场景编辑。因此,我们提出了一种方法,利用在强大的2D修复方法中编码的先验知识来移除场景中的对象。这需要在优化阶段设计一个基于信心的视图选择机制,以确保最终重建中的多视图一致性。