【CVPR2023】Mask3D:通过学习掩码3D先验对2D视觉transformer进行预训练 - 专知VIP

会员服务 ·

14

Mask3D · Transformer · CVPR 2023 ·

2023 年 4 月 9 日

【CVPR2023】Mask3D:通过学习掩码3D先验对2D视觉transformer进行预训练

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

当前计算机视觉中流行的骨干网络，如视觉transformer (ViT)和ResNets，经过训练可以从2D图像中感知世界。为更有效地理解2D骨干中的3D结构先验，本文提出Mask3D，在自监督预训练中利用现有的大规模RGB-D数据，将这些3D先验嵌入到2D学习的特征表示中.与需要3D重建或多视图对应的传统3D对比学习范式相比，所提出方法很简单:通过屏蔽单个RGB- D帧中的RGB和深度补丁来制定前文本重建任务。Mask3D在将3D先验嵌入到强大的2D ViT主干中特别有效，能对各种场景理解任务进行改进的表示学习，如语义分割、实例分割和目标检测。实验表明，Mask3D在ScanNet、NYUv2和Cityscapes图像理解任务上明显优于现有的自监督3D预训练方法，在ScanNet图像语义分割上比最先进的Pri3D提高了+6.5% mIoU。

https://www.zhuanzhi.ai/paper/2cc5e9e67bcbea75082fac9489f2e2a4

成为VIP会员查看完整内容

24

相关内容

Mask3D

【CVPR2023】基于文本驱动软掩码的多模态表示学习

【CVPR2023】基于文本驱动软掩码的多模态表示学习

专知会员服务

21+阅读 · 2023年4月10日

【CVPR2022】提示分布学习

【CVPR2022】提示分布学习

专知会员服务

31+阅读 · 2022年5月17日

【CVPR2022】基于知识蒸馏的高效预训练

【CVPR2022】基于知识蒸馏的高效预训练

专知会员服务

32+阅读 · 2022年4月23日

【CVPR2022】基于粗-精视觉Transformer的仿射医学图像配准

【CVPR2022】基于粗-精视觉Transformer的仿射医学图像配准

专知会员服务

36+阅读 · 2022年4月2日

【CVPR2022】EDTER：基于Transformer的边缘检测（CVPR2022）

【CVPR2022】EDTER：基于Transformer的边缘检测（CVPR2022）

专知会员服务

33+阅读 · 2022年3月18日

【CVPR2022】三元组对比学习的视觉-语言预训练

【CVPR2022】三元组对比学习的视觉-语言预训练

专知会员服务

33+阅读 · 2022年3月3日

【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习

【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习

专知会员服务

50+阅读 · 2021年12月20日

【CVPR2021】密集对比学习的自监督视觉预训练

专知会员服务

39+阅读 · 2021年5月16日

SiT: 自监督视觉Transformer

专知会员服务

65+阅读 · 2021年4月11日

【CVPR2021】用Transformers无监督预训练进行目标检测

【CVPR2021】用Transformers无监督预训练进行目标检测

专知会员服务

58+阅读 · 2021年3月3日

【CVPR2023】基于文本驱动软掩码的多模态表示学习

【CVPR2023】基于文本驱动软掩码的多模态表示学习

专知

1+阅读 · 2023年4月10日

TPAMI 2022｜程明明团队提出LUSS：大规模无监督语义分割和ImageNet-S数据集

TPAMI 2022｜程明明团队提出LUSS：大规模无监督语义分割和ImageNet-S数据集

极市平台

0+阅读 · 2022年11月5日

NeurIPS 2022 | 基于双重相似度迁移的弱样本语义分割

NeurIPS 2022 | 基于双重相似度迁移的弱样本语义分割

PaperWeekly

0+阅读 · 2022年10月13日

【NeurIPS2022】不用微调的加速大规模视觉Transformer的密集预测

【NeurIPS2022】不用微调的加速大规模视觉Transformer的密集预测

专知

0+阅读 · 2022年10月5日

没有3D卷积的3D重建方法，A100上重建一帧仅需70ms

没有3D卷积的3D重建方法，A100上重建一帧仅需70ms

机器之心

0+阅读 · 2022年9月13日

新注意力机制！LITv2：具有HiLo注意力的快速视觉Transformer

新注意力机制！LITv2：具有HiLo注意力的快速视觉Transformer

CVer

0+阅读 · 2022年6月2日

CVPR 2022 | 清华开源DAT：具有可变形注意力的视觉Transformer

CVPR 2022 | 清华开源DAT：具有可变形注意力的视觉Transformer

CVer

1+阅读 · 2022年5月24日

自监督学习推动医学图像分类发展

自监督学习推动医学图像分类发展

TensorFlow

17+阅读 · 2021年12月6日

CVPR2020 | 即插即用！语义分割网络用上双边超分辨率，效果喜人！

CVPR2020 | 即插即用！语义分割网络用上双边超分辨率，效果喜人！

AI科技评论

11+阅读 · 2020年6月16日

无监督学习最新研究：图像旋转为特征学习提供强大的替代监督信号

无监督学习最新研究：图像旋转为特征学习提供强大的替代监督信号

德先生

10+阅读 · 2018年3月29日

基于自学习对比度视觉注意模型和自适应深度特征的无分类目标检测

国家自然科学基金

2+阅读 · 2015年12月31日

图像细粒度识别的显著性特征学习算法研究

国家自然科学基金

2+阅读 · 2014年12月31日

保持全局形状和视觉舒适度的2D和3D媒体适应方法研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于语义分割与理解的室外场景三维重建研究

国家自然科学基金

0+阅读 · 2013年12月31日

面向数据表示的深度稀疏保持学习

国家自然科学基金

7+阅读 · 2013年12月31日

高效3D 4H-SiC中子探测器的研究

国家自然科学基金

0+阅读 · 2013年12月31日

Affordance辅助服务机器人识别形状不规则物体研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于视觉先验学习和混合因子分析的极化SAR图像识别与分类

国家自然科学基金

1+阅读 · 2012年12月31日

弱监督条件下RGB-D时序图像的语义分割模型与迁移学习算法

国家自然科学基金

0+阅读 · 2012年12月31日

医学图像分割中面向目标的形状统计与边界特征学习

国家自然科学基金

3+阅读 · 2011年12月31日

Context-Aware Transformer Pre-Training for Answer Sentence Selection

Arxiv

0+阅读 · 2023年5月24日

Dual-Side Feature Fusion 3D Pose Transfer

Arxiv

0+阅读 · 2023年5月24日

Weakly-Supervised Learning of Visual Relations in Multimodal Pretraining

Arxiv

0+阅读 · 2023年5月23日

Unsupervised Semantic Segmentation of 3D Point Clouds via Cross-modal Distillation and Super-Voxel Clustering

Arxiv

0+阅读 · 2023年5月23日

CLIP-Fields: Weakly Supervised Semantic Fields for Robotic Memory

Arxiv

0+阅读 · 2023年5月22日

Activation Modulation and Recalibration Scheme for Weakly Supervised Semantic Segmentation

Arxiv

12+阅读 · 2021年12月16日

Survey: Transformer based Video-Language Pre-training

Arxiv

20+阅读 · 2021年9月21日

UniViLM: A Unified Video and Language Pre-Training Model for Multimodal Understanding and Generation

UniViLM: A Unified Video and Language Pre-Training Model for Multimodal Understanding and Generation

Arxiv

19+阅读 · 2020年2月15日

3D Hand Shape and Pose Estimation from a Single RGB Image

3D Hand Shape and Pose Estimation from a Single RGB Image

Arxiv

17+阅读 · 2019年3月3日

3D Backbone Network for 3D Object Detection

Arxiv

12+阅读 · 2019年1月24日

VIP会员

相关主题

相关VIP内容

【CVPR2023】基于文本驱动软掩码的多模态表示学习

【CVPR2023】基于文本驱动软掩码的多模态表示学习

专知会员服务

21+阅读 · 2023年4月10日

【CVPR2022】提示分布学习

【CVPR2022】提示分布学习

专知会员服务

31+阅读 · 2022年5月17日

【CVPR2022】基于知识蒸馏的高效预训练

【CVPR2022】基于知识蒸馏的高效预训练

专知会员服务

32+阅读 · 2022年4月23日

【CVPR2022】基于粗-精视觉Transformer的仿射医学图像配准

【CVPR2022】基于粗-精视觉Transformer的仿射医学图像配准

专知会员服务

36+阅读 · 2022年4月2日

【CVPR2022】EDTER：基于Transformer的边缘检测（CVPR2022）

【CVPR2022】EDTER：基于Transformer的边缘检测（CVPR2022）

专知会员服务

33+阅读 · 2022年3月18日

【CVPR2022】三元组对比学习的视觉-语言预训练

【CVPR2022】三元组对比学习的视觉-语言预训练

专知会员服务

33+阅读 · 2022年3月3日

【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习

【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习

专知会员服务

50+阅读 · 2021年12月20日

【CVPR2021】密集对比学习的自监督视觉预训练

专知会员服务

39+阅读 · 2021年5月16日

SiT: 自监督视觉Transformer

专知会员服务

65+阅读 · 2021年4月11日

【CVPR2021】用Transformers无监督预训练进行目标检测

【CVPR2021】用Transformers无监督预训练进行目标检测

专知会员服务

58+阅读 · 2021年3月3日

热门VIP内容

开通专知VIP会员享更多权益服务

《乌克兰无人机产业：志愿者与政策在构建新兴无人机产业中的协同作用》最新报告

《人工智能辅助决策中的数据可视化：系统性综述》

人工智能驱动弹药制造现代化：美国陆军转型之路

《敏捷作战部署中枢纽-辐条基地选址优化研究》80页

相关资讯

【CVPR2023】基于文本驱动软掩码的多模态表示学习

【CVPR2023】基于文本驱动软掩码的多模态表示学习

专知

1+阅读 · 2023年4月10日

TPAMI 2022｜程明明团队提出LUSS：大规模无监督语义分割和ImageNet-S数据集

TPAMI 2022｜程明明团队提出LUSS：大规模无监督语义分割和ImageNet-S数据集

极市平台

0+阅读 · 2022年11月5日

NeurIPS 2022 | 基于双重相似度迁移的弱样本语义分割

NeurIPS 2022 | 基于双重相似度迁移的弱样本语义分割

PaperWeekly

0+阅读 · 2022年10月13日

【NeurIPS2022】不用微调的加速大规模视觉Transformer的密集预测

【NeurIPS2022】不用微调的加速大规模视觉Transformer的密集预测

专知

0+阅读 · 2022年10月5日

没有3D卷积的3D重建方法，A100上重建一帧仅需70ms

没有3D卷积的3D重建方法，A100上重建一帧仅需70ms

机器之心

0+阅读 · 2022年9月13日

新注意力机制！LITv2：具有HiLo注意力的快速视觉Transformer

新注意力机制！LITv2：具有HiLo注意力的快速视觉Transformer

CVer

0+阅读 · 2022年6月2日

CVPR 2022 | 清华开源DAT：具有可变形注意力的视觉Transformer

CVPR 2022 | 清华开源DAT：具有可变形注意力的视觉Transformer

CVer

1+阅读 · 2022年5月24日

自监督学习推动医学图像分类发展

自监督学习推动医学图像分类发展

TensorFlow

17+阅读 · 2021年12月6日

CVPR2020 | 即插即用！语义分割网络用上双边超分辨率，效果喜人！

CVPR2020 | 即插即用！语义分割网络用上双边超分辨率，效果喜人！

AI科技评论

11+阅读 · 2020年6月16日

无监督学习最新研究：图像旋转为特征学习提供强大的替代监督信号

无监督学习最新研究：图像旋转为特征学习提供强大的替代监督信号

德先生

10+阅读 · 2018年3月29日

相关基金

基于自学习对比度视觉注意模型和自适应深度特征的无分类目标检测

国家自然科学基金

2+阅读 · 2015年12月31日

图像细粒度识别的显著性特征学习算法研究

国家自然科学基金

2+阅读 · 2014年12月31日

保持全局形状和视觉舒适度的2D和3D媒体适应方法研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于语义分割与理解的室外场景三维重建研究

国家自然科学基金

0+阅读 · 2013年12月31日

面向数据表示的深度稀疏保持学习

国家自然科学基金

7+阅读 · 2013年12月31日

高效3D 4H-SiC中子探测器的研究

国家自然科学基金

0+阅读 · 2013年12月31日

Affordance辅助服务机器人识别形状不规则物体研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于视觉先验学习和混合因子分析的极化SAR图像识别与分类

国家自然科学基金

1+阅读 · 2012年12月31日

弱监督条件下RGB-D时序图像的语义分割模型与迁移学习算法

国家自然科学基金

0+阅读 · 2012年12月31日

医学图像分割中面向目标的形状统计与边界特征学习

国家自然科学基金

3+阅读 · 2011年12月31日

相关论文

Context-Aware Transformer Pre-Training for Answer Sentence Selection

Arxiv

0+阅读 · 2023年5月24日

Dual-Side Feature Fusion 3D Pose Transfer

Arxiv

0+阅读 · 2023年5月24日

Weakly-Supervised Learning of Visual Relations in Multimodal Pretraining

Arxiv

0+阅读 · 2023年5月23日

Unsupervised Semantic Segmentation of 3D Point Clouds via Cross-modal Distillation and Super-Voxel Clustering

Arxiv

0+阅读 · 2023年5月23日

CLIP-Fields: Weakly Supervised Semantic Fields for Robotic Memory

Arxiv

0+阅读 · 2023年5月22日

Activation Modulation and Recalibration Scheme for Weakly Supervised Semantic Segmentation

Arxiv

12+阅读 · 2021年12月16日

Survey: Transformer based Video-Language Pre-training

Arxiv

20+阅读 · 2021年9月21日

UniViLM: A Unified Video and Language Pre-Training Model for Multimodal Understanding and Generation

UniViLM: A Unified Video and Language Pre-Training Model for Multimodal Understanding and Generation

Arxiv

19+阅读 · 2020年2月15日

3D Hand Shape and Pose Estimation from a Single RGB Image

3D Hand Shape and Pose Estimation from a Single RGB Image

Arxiv

17+阅读 · 2019年3月3日

3D Backbone Network for 3D Object Detection

Arxiv

12+阅读 · 2019年1月24日

微信扫码咨询专知VIP会员