通过坐标编码为 3D 对象解码而编码的交叉模式变换器 (Cross Modal Transformer via Coordinates Encoding for 3D Object Dectection) - 专知论文

会员服务 ·

0

3D · Performer · 变换 · 稳健性 · 模态 ·

2023 年 1 月 3 日

Cross Modal Transformer via Coordinates Encoding for 3D Object Dectection

翻译：通过坐标编码为 3D 对象解码而编码的交叉模式变换器

Junjie Yan,Yingfei Liu,Jianjian Sun,Fan Jia,Shuailin Li,Tiancai Wang,Xiangyu Zhang

In this paper, we propose a robust 3D detector, named Cross Modal Transformer (CMT), for end-to-end 3D multi-modal detection. Without explicit view transformation, CMT takes the image and point clouds tokens as inputs and directly outputs accurate 3D bounding boxes. The spatial alignment of multi-modal tokens is performed implicitly, by encoding the 3D points into multi-modal features. The core design of CMT is quite simple while its performance is impressive. CMT obtains 73.0% NDS on nuScenes benchmark. Moreover, CMT has a strong robustness even if the LiDAR is missing. Code will be released at https://github.com/junjie18/CMT.

翻译：在本文中,我们提议建立一个强有力的三维探测器,名为Cross Modal变形器(CMT),用于终端到终端三维多式检测。在没有明确的视图转换的情况下, CMT将图像和点云符号作为输入和直接输出准确的三维约束框。通过将三维点编码成多模式特征,对多模式符号进行空间调整是隐含的。 CMT的核心设计非常简单,其性能令人印象深刻。 CMT在 nuScenes 基准上获得了73.0% NDS。此外, CMT即使缺少利DAR, 也具有很强的坚固性。代码将在 https://github.com/junjie18/CMT上发布。

0

相关内容

3D是英文“Three Dimensions”的简称，中文是指三维、三个维度、三个坐标，即有长、有宽、有高，换句话说，就是立体的，是相对于只有长和宽的平面（2D）而言。

50+篇《神经架构搜索NAS》2020论文合集

专知会员服务

61+阅读 · 2020年3月19日

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

专知会员服务

49+阅读 · 2019年10月17日

Deep Learning Based Detection and Correction of Cardiac MR Motion Artefacts During Reconstruction for High-Quality Segmentation

Deep Learning Based Detection and Correction of Cardiac MR Motion Artefacts During Reconstruction for High-Quality Segmentation

专知会员服务

59+阅读 · 2019年10月17日

强化学习最新教程，17页pdf

强化学习最新教程，17页pdf

专知会员服务

182+阅读 · 2019年10月11日

[综述]深度学习下的场景文本检测与识别

[综述]深度学习下的场景文本检测与识别

专知会员服务

78+阅读 · 2019年10月10日

机器学习入门的经验与建议

机器学习入门的经验与建议

专知会员服务

94+阅读 · 2019年10月10日

【人工智能在2019：一年回顾】反人工智能，AI in 2019: A Year in Review

【人工智能在2019：一年回顾】反人工智能，AI in 2019: A Year in Review

专知会员服务

79+阅读 · 2019年10月10日

【CMU卡内基梅隆大学】深度学习在计算机视觉的应用：方法，解释，因果与公平性

【CMU卡内基梅隆大学】深度学习在计算机视觉的应用：方法，解释，因果与公平性

专知会员服务

83+阅读 · 2019年10月9日

【加州大学伯克利分校博士论文】通过自我监督预测学习泛化

【加州大学伯克利分校博士论文】通过自我监督预测学习泛化

专知会员服务

65+阅读 · 2019年10月9日

【哈佛大学商学院课程Fall 2019】机器学习可解释性

【哈佛大学商学院课程Fall 2019】机器学习可解释性

专知会员服务

105+阅读 · 2019年10月9日

VCIP 2022 Call for Demos

VCIP 2022 Call for Demos

CCF多媒体专委会

1+阅读 · 2022年6月6日

VCIP 2022 Call for Special Session Proposals

VCIP 2022 Call for Special Session Proposals

CCF多媒体专委会

1+阅读 · 2022年4月1日

IEEE ICKG 2022: Call for Papers

IEEE ICKG 2022: Call for Papers

机器学习与推荐算法

3+阅读 · 2022年3月30日

AIART 2022 Call for Papers

AIART 2022 Call for Papers

CCF多媒体专委会

1+阅读 · 2022年2月13日

【ICIG2021】Latest News & Announcements of the Plenary Talk1

【ICIG2021】Latest News & Announcements of the Plenary Talk1

中国图象图形学学会CSIG

0+阅读 · 2021年11月1日

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

Transferring Knowledge across Learning Processes

Transferring Knowledge across Learning Processes

CreateAMind

29+阅读 · 2019年5月18日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

43+阅读 · 2019年1月3日

A Technical Overview of AI & ML in 2018 & Trends for 2019

A Technical Overview of AI & ML in 2018 & Trends for 2019

待字闺中

18+阅读 · 2018年12月24日

Capsule Networks解析

Capsule Networks解析

机器学习研究会

11+阅读 · 2017年11月12日

两类带导数的非线性Schrodinger方程拟周期解的存在性

国家自然科学基金

0+阅读 · 2015年12月31日

具有d10-d10金属间相互作用的银铋三元氧化物的光催化氧化性能研究

国家自然科学基金

0+阅读 · 2015年12月31日

Versican 3'-非翻译区(3'-UTR)作为非编码竞争内源性RNA(ceRNA)通过调控MicroRNAs的功能在乳腺癌中的作用

国家自然科学基金

0+阅读 · 2014年12月31日

有理函数非旋转Fatou域与不连通Julia集的结构

国家自然科学基金

0+阅读 · 2014年12月31日

Calderon问题和边界刚性问题

国家自然科学基金

0+阅读 · 2013年12月31日

三维有序孔氧化物复合阴极的可控制备及电化学性能研究

国家自然科学基金

0+阅读 · 2013年12月31日

Kronheimer-Nakajima quiver 模空间与有理曲面

国家自然科学基金

1+阅读 · 2013年12月31日

基于GPU的directionlets域SAR图像相干斑噪声抑制并行算法研究

国家自然科学基金

0+阅读 · 2012年12月31日

Cocycle动力学和拟周期薛定谔算子的谱

国家自然科学基金

0+阅读 · 2012年12月31日

能量临界情形的非线性Schrodinger方程

国家自然科学基金

0+阅读 · 2011年12月31日

Semi-supervised 3D Object Detection via Temporal Graph Neural Networks

Semi-supervised 3D Object Detection via Temporal Graph Neural Networks

Arxiv

0+阅读 · 2023年3月2日

Delivering Arbitrary-Modal Semantic Segmentation

Arxiv

0+阅读 · 2023年3月2日

Tri-Perspective View for Vision-Based 3D Semantic Occupancy Prediction

Arxiv

0+阅读 · 2023年3月2日

RCDPT: Radar-Camera fusion Dense Prediction Transformer

Arxiv

0+阅读 · 2023年3月2日

STDepthFormer: Predicting Spatio-temporal Depth from Video with a Self-supervised Transformer Model

Arxiv

0+阅读 · 2023年3月2日

Task-Specific Context Decoupling for Object Detection

Arxiv

0+阅读 · 2023年3月2日

Extracting Motion and Appearance via Inter-Frame Attention for Efficient Video Frame Interpolation

Arxiv

0+阅读 · 2023年3月1日

D2SLAM: Semantic visual SLAM based on the Depth-related influence on object interactions for Dynamic environments

Arxiv

0+阅读 · 2023年2月27日

Transformer Tracking

Arxiv

17+阅读 · 2021年3月29日

Hierarchical Graph Pooling with Structure Learning

Arxiv

13+阅读 · 2019年11月14日

VIP会员

文章信息

相关主题

相关VIP内容

50+篇《神经架构搜索NAS》2020论文合集

专知会员服务

61+阅读 · 2020年3月19日

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

专知会员服务

49+阅读 · 2019年10月17日

Deep Learning Based Detection and Correction of Cardiac MR Motion Artefacts During Reconstruction for High-Quality Segmentation

Deep Learning Based Detection and Correction of Cardiac MR Motion Artefacts During Reconstruction for High-Quality Segmentation

专知会员服务

59+阅读 · 2019年10月17日

强化学习最新教程，17页pdf

强化学习最新教程，17页pdf

专知会员服务

182+阅读 · 2019年10月11日

[综述]深度学习下的场景文本检测与识别

[综述]深度学习下的场景文本检测与识别

专知会员服务

78+阅读 · 2019年10月10日

机器学习入门的经验与建议

机器学习入门的经验与建议

专知会员服务

94+阅读 · 2019年10月10日

【人工智能在2019：一年回顾】反人工智能，AI in 2019: A Year in Review

【人工智能在2019：一年回顾】反人工智能，AI in 2019: A Year in Review

专知会员服务

79+阅读 · 2019年10月10日

【CMU卡内基梅隆大学】深度学习在计算机视觉的应用：方法，解释，因果与公平性

【CMU卡内基梅隆大学】深度学习在计算机视觉的应用：方法，解释，因果与公平性

专知会员服务

83+阅读 · 2019年10月9日

【加州大学伯克利分校博士论文】通过自我监督预测学习泛化

【加州大学伯克利分校博士论文】通过自我监督预测学习泛化

专知会员服务

65+阅读 · 2019年10月9日

【哈佛大学商学院课程Fall 2019】机器学习可解释性

【哈佛大学商学院课程Fall 2019】机器学习可解释性

专知会员服务

105+阅读 · 2019年10月9日

热门VIP内容

开通专知VIP会员享更多权益服务

《利用射频传感器载荷增强无人机的侦察、监视与目标获取（ISR）能力》报告

《导航战》2025最新报告

人工智能驱动的国防战术通信与网络：提升现代战争中的态势感知、安全性与自主决策 | 万字长文

《有人-无人轻型驱逐舰与中型无人水面艇支队在第二与第一岛链作战中的部署概念（CONOPS）》56页报告

相关资讯

VCIP 2022 Call for Demos

VCIP 2022 Call for Demos

CCF多媒体专委会

1+阅读 · 2022年6月6日

VCIP 2022 Call for Special Session Proposals

VCIP 2022 Call for Special Session Proposals

CCF多媒体专委会

1+阅读 · 2022年4月1日

IEEE ICKG 2022: Call for Papers

IEEE ICKG 2022: Call for Papers

机器学习与推荐算法

3+阅读 · 2022年3月30日

AIART 2022 Call for Papers

AIART 2022 Call for Papers

CCF多媒体专委会

1+阅读 · 2022年2月13日

【ICIG2021】Latest News & Announcements of the Plenary Talk1

【ICIG2021】Latest News & Announcements of the Plenary Talk1

中国图象图形学学会CSIG

0+阅读 · 2021年11月1日

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

Transferring Knowledge across Learning Processes

Transferring Knowledge across Learning Processes

CreateAMind

29+阅读 · 2019年5月18日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

43+阅读 · 2019年1月3日

A Technical Overview of AI & ML in 2018 & Trends for 2019

A Technical Overview of AI & ML in 2018 & Trends for 2019

待字闺中

18+阅读 · 2018年12月24日

Capsule Networks解析

Capsule Networks解析

机器学习研究会

11+阅读 · 2017年11月12日

相关论文

Semi-supervised 3D Object Detection via Temporal Graph Neural Networks

Semi-supervised 3D Object Detection via Temporal Graph Neural Networks

Arxiv

0+阅读 · 2023年3月2日

Delivering Arbitrary-Modal Semantic Segmentation

Arxiv

0+阅读 · 2023年3月2日

Tri-Perspective View for Vision-Based 3D Semantic Occupancy Prediction

Arxiv

0+阅读 · 2023年3月2日

RCDPT: Radar-Camera fusion Dense Prediction Transformer

Arxiv

0+阅读 · 2023年3月2日

STDepthFormer: Predicting Spatio-temporal Depth from Video with a Self-supervised Transformer Model

Arxiv

0+阅读 · 2023年3月2日

Task-Specific Context Decoupling for Object Detection

Arxiv

0+阅读 · 2023年3月2日

Extracting Motion and Appearance via Inter-Frame Attention for Efficient Video Frame Interpolation

Arxiv

0+阅读 · 2023年3月1日

D2SLAM: Semantic visual SLAM based on the Depth-related influence on object interactions for Dynamic environments

Arxiv

0+阅读 · 2023年2月27日

Transformer Tracking

Arxiv

17+阅读 · 2021年3月29日

Hierarchical Graph Pooling with Structure Learning

Arxiv

13+阅读 · 2019年11月14日

相关基金

两类带导数的非线性Schrodinger方程拟周期解的存在性

国家自然科学基金

0+阅读 · 2015年12月31日

具有d10-d10金属间相互作用的银铋三元氧化物的光催化氧化性能研究

国家自然科学基金

0+阅读 · 2015年12月31日

Versican 3'-非翻译区(3'-UTR)作为非编码竞争内源性RNA(ceRNA)通过调控MicroRNAs的功能在乳腺癌中的作用

国家自然科学基金

0+阅读 · 2014年12月31日

有理函数非旋转Fatou域与不连通Julia集的结构

国家自然科学基金

0+阅读 · 2014年12月31日

Calderon问题和边界刚性问题

国家自然科学基金

0+阅读 · 2013年12月31日

三维有序孔氧化物复合阴极的可控制备及电化学性能研究

国家自然科学基金

0+阅读 · 2013年12月31日

Kronheimer-Nakajima quiver 模空间与有理曲面

国家自然科学基金

1+阅读 · 2013年12月31日

基于GPU的directionlets域SAR图像相干斑噪声抑制并行算法研究

国家自然科学基金

0+阅读 · 2012年12月31日

Cocycle动力学和拟周期薛定谔算子的谱

国家自然科学基金

0+阅读 · 2012年12月31日

能量临界情形的非线性Schrodinger方程

国家自然科学基金

0+阅读 · 2011年12月31日

微信扫码咨询专知VIP会员