论文概述:基于点云的大规模场景识别是自动驾驶领域和并发建图与定位(SLAM)领域的关键性技术之一。现有算法通过学习点云场景中的近程局部信息已经取得了不错的性能,但是他们通常忽略了如何利用蕴含在点云中的长程上下文特征。除此之外,现有算法庞大的参数量也使得将现有算法泛化到轻量级硬件设备上成为一个巨大的挑战。为了解决上述问题,本提出了一个叫做SVT-Net的超轻量化网络。SVT-Net由基于原子的稀疏体素Transformer(ASVT)和基于聚类的稀疏体素Transformer(CSVT),能够充分挖掘点云中的长短程上下文特征。同时,受益于ASVT和CSVT的轻量性和高效性,SVT-Net在场景识别准确度、算法效率和模型大小上,都能达到SOTA的效果。此外,我们也在文中介绍了SVT-Net的两个简化版本,在保障识别准确度的前提下,将模型参数量分别进一步降低为了0.4M和0.8M。