A key challenge for LiDAR-based 3D object detection is to capture sufficient features from large scale 3D scenes especially for distant or/and occluded objects. Albeit recent efforts made by Transformers with the long sequence modeling capability, they fail to properly balance the accuracy and efficiency, suffering from inadequate receptive fields or coarse-grained holistic correlations. In this paper, we propose an Octree-based Transformer, named OcTr, to address this issue. It first constructs a dynamic octree on the hierarchical feature pyramid through conducting self-attention on the top level and then recursively propagates to the level below restricted by the octants, which captures rich global context in a coarse-to-fine manner while maintaining the computational complexity under control. Furthermore, for enhanced foreground perception, we propose a hybrid positional embedding, composed of the semantic-aware positional embedding and attention mask, to fully exploit semantic and geometry clues. Extensive experiments are conducted on the Waymo Open Dataset and KITTI Dataset, and OcTr reaches newly state-of-the-art results.


翻译:LiDAR的三维物体检测的一个重要挑战是在大规模三维场景中捕捉足够的特征,尤其是对于远处或/和被遮挡的物体。尽管最近Transformer通过长序列建模能力进行努力,但它们无法正确平衡精度和效率,往往受到不足的感受野或粗糙的整体相关性的困扰。在本文中,我们提出了一种基于Octree的Transformer,称为OcTr,以解决这个问题。它首先通过在顶级上进行自注意力构造了一个动态八叉树,然后通过被八分限制地递归传播到下面的层级,从而以粗到细的方式捕捉丰富的全局上下文,同时使计算复杂度可控。此外,为了增强前景感知,我们提出了一种混合位置嵌入,由语义感知位置嵌入和注意力蒙版组成,以充分利用语义和几何线索。在Waymo Open数据集和KITTI数据集上进行了广泛的实验,OcTr取得了最新的最优结果。

0
下载
关闭预览

相关内容

Graph Transformer近期进展
专知会员服务
60+阅读 · 2023年1月5日
专知会员服务
22+阅读 · 2021年9月20日
专知会员服务
25+阅读 · 2021年4月2日
专知会员服务
59+阅读 · 2020年3月19日
GNN 新基准!Long Range Graph Benchmark
图与推荐
0+阅读 · 2022年10月18日
VCIP 2022 Call for Demos
CCF多媒体专委会
1+阅读 · 2022年6月6日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
简评 | Video Action Recognition 的近期进展
极市平台
20+阅读 · 2019年4月21日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
vae 相关论文 表示学习 1
CreateAMind
12+阅读 · 2018年9月6日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
可解释的CNN
CreateAMind
17+阅读 · 2017年10月5日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2008年12月31日
Arxiv
17+阅读 · 2022年2月23日
Arxiv
12+阅读 · 2021年6月21日
Arxiv
10+阅读 · 2019年1月24日
VIP会员
相关VIP内容
Graph Transformer近期进展
专知会员服务
60+阅读 · 2023年1月5日
专知会员服务
22+阅读 · 2021年9月20日
专知会员服务
25+阅读 · 2021年4月2日
专知会员服务
59+阅读 · 2020年3月19日
相关资讯
GNN 新基准!Long Range Graph Benchmark
图与推荐
0+阅读 · 2022年10月18日
VCIP 2022 Call for Demos
CCF多媒体专委会
1+阅读 · 2022年6月6日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
简评 | Video Action Recognition 的近期进展
极市平台
20+阅读 · 2019年4月21日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
vae 相关论文 表示学习 1
CreateAMind
12+阅读 · 2018年9月6日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
可解释的CNN
CreateAMind
17+阅读 · 2017年10月5日
相关基金
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员