鲁棒和高效的3D场景理解可以使具身智能体实时安全地与物理世界交互。过去十年计算机视觉取得显著成功的关键在于卷积神经网络的重新发现。然而,由于维度的诅咒,这种技术并不总是直接转化为3D。数据的大小随着体素的增加呈立方体增长,同样水平的输入分辨率和网络深度与2D相比是不可行的。基于对三维空间基本为空的观察,稀疏张量和稀疏卷积由于只作用于非空的空间,作为二维卷积的高效的三维对应物而突出出来。这种效率增益支持更深入的神经网络,以获得实时参考速度的更高精度。为此,本文探讨了稀疏卷积在各种3D场景理解任务中的应用。
https://searchworks.stanford.edu/view/14311969
本文将一个整体的3D场景理解流程分解为以下子目标:1.三维重建数据采集; 2. 语义分割,3. 目标检测; 4. 多目标跟踪。考虑到机器人应用,本文旨在实现更好的性能、可扩展性和效率,以理解时空域的高级语义,同时解决稀疏数据所提出的独特挑战。在这篇论文中,我们提出了广义稀疏卷积,并演示了我们的方法1。利用三维点云的稀疏性来提高效率。利用所获得的效率,实现了鲁棒的性能,3。通过动态生成点对空白空间进行预测;结合时空推理解决检测跟踪问题。总之,本文提出了一种高效、可靠的三维场景整体理解途径。