【CVPR2023】Mask3D:通过学习掩码3D先验对2D视觉transformer进行预训练 - 专知

会员服务 ·

0

【CVPR2023】Mask3D:通过学习掩码3D先验对2D视觉transformer进行预训练

2023 年 4 月 9 日 专知

当前计算机视觉中流行的骨干网络，如视觉transformer (ViT)和ResNets，经过训练可以从2D图像中感知世界。为更有效地理解2D骨干中的3D结构先验，本文提出Mask3D，在自监督预训练中利用现有的大规模RGB-D数据，将这些3D先验嵌入到2D学习的特征表示中。与需要3D重建或多视图对应的传统3D对比学习范式相比，所提出方法很简单:通过屏蔽单个RGB- D帧中的RGB和深度补丁来制定前文本重建任务。Mask3D在将3D先验嵌入到强大的2D ViT主干中特别有效，能对各种场景理解任务进行改进的表示学习，如语义分割、实例分割和目标检测。实验表明，Mask3D在ScanNet、NYUv2和Cityscapes图像理解任务上明显优于现有的自监督3D预训练方法，在ScanNet图像语义分割上比最先进的Pri3D提高了+6.5% mIoU。

https://www.zhuanzhi.ai/paper/2cc5e9e67bcbea75082fac9489f2e2a4

专知便捷查看

便捷下载，请关注专知公众号（点击上方蓝色专知关注）

后台回复或发消息“Mask3D” 就可以获取《【CVPR2023】Mask3D:通过学习掩码3D先验对2D视觉transformer进行预训练》专知下载链接

专知，专业可信的人工智能知识分发 ，让认知协作更快更好！欢迎注册登录专知www.zhuanzhi.ai，获取100000+AI(AI与军事、医药、公安等)主题干货知识资料！

欢迎微信扫一扫加入专知人工智能知识星球群，获取最新AI专业干货知识教程资料和与专家交流咨询！

点击“ 阅读原文 ”，了解使用专知 ，查看获取100000+AI主题知识资料

登录查看更多

2

相关内容

Mask3D

【CVPR2023】BiFormer:基于双层路由注意力的视觉Transformer

【CVPR2023】BiFormer:基于双层路由注意力的视觉Transformer

专知会员服务

35+阅读 · 2023年3月20日

【CVPR2023】三维医学图像自监督预训练中的几何视觉相似性学习

【CVPR2023】三维医学图像自监督预训练中的几何视觉相似性学习

专知会员服务

32+阅读 · 2023年3月3日

【CVPR2023】基础模型驱动弱增量学习的语义分割

【CVPR2023】基础模型驱动弱增量学习的语义分割

专知会员服务

18+阅读 · 2023年3月2日

【NeurIPS2022】基于结构聚类的自监督异构图预训练

【NeurIPS2022】基于结构聚类的自监督异构图预训练

专知会员服务

24+阅读 · 2022年10月20日

【ECCV2022】对比视觉Transformer的在线持续学习

【ECCV2022】对比视觉Transformer的在线持续学习

专知会员服务

23+阅读 · 2022年7月29日

【CVPR2022】UKPGAN:一个通用的自我监督的关键点检测器

【CVPR2022】UKPGAN:一个通用的自我监督的关键点检测器

专知会员服务

15+阅读 · 2022年4月5日

【CVPR2022】基于粗-精视觉Transformer的仿射医学图像配准

【CVPR2022】基于粗-精视觉Transformer的仿射医学图像配准

专知会员服务

36+阅读 · 2022年4月2日

【CVPR2022】三元组对比学习的视觉-语言预训练

【CVPR2022】三元组对比学习的视觉-语言预训练

专知会员服务

33+阅读 · 2022年3月3日

【CVPR2021】空间一致性表示学习

专知会员服务

63+阅读 · 2021年3月12日

【CVPR2021】自监督几何感知

【CVPR2021】自监督几何感知

专知会员服务

46+阅读 · 2021年3月6日

【CVPR2023】基于文本驱动软掩码的多模态表示学习

【CVPR2023】基于文本驱动软掩码的多模态表示学习

专知

1+阅读 · 2023年4月10日

【AAAI2023】对比掩码自动编码器的自监督视频哈希

【AAAI2023】对比掩码自动编码器的自监督视频哈希

专知

1+阅读 · 2022年11月26日

【NeurIPS2022】基于最大熵编码的自监督学习

【NeurIPS2022】基于最大熵编码的自监督学习

专知

1+阅读 · 2022年10月23日

【NeurIPS2022】基于结构聚类的自监督异构图预训练

【NeurIPS2022】基于结构聚类的自监督异构图预训练

专知

1+阅读 · 2022年10月20日

【NeurIPS2022】不用微调的加速大规模视觉Transformer的密集预测

【NeurIPS2022】不用微调的加速大规模视觉Transformer的密集预测

专知

0+阅读 · 2022年10月5日

【CIKM2022】基于双向Transformers对比学习的序列推荐

【CIKM2022】基于双向Transformers对比学习的序列推荐

专知

6+阅读 · 2022年8月10日

【ECCV2022】对比视觉Transformer的在线持续学习

【ECCV2022】对比视觉Transformer的在线持续学习

专知

0+阅读 · 2022年7月30日

【ICML2022】时序自监督视频transformer

【ICML2022】时序自监督视频transformer

专知

1+阅读 · 2022年7月28日

【KDD2022】GraphMAE:自监督掩码图自编码器

【KDD2022】GraphMAE:自监督掩码图自编码器

专知

7+阅读 · 2022年6月12日

【CVPR2020-北京大学】自适应间隔损失的提升小样本学习

【CVPR2020-北京大学】自适应间隔损失的提升小样本学习

专知

12+阅读 · 2020年6月9日

大规模多视角高维图像特征提取

国家自然科学基金

3+阅读 · 2017年12月31日

立体图像感知舒适度评价及提升方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

图像中复杂形变物体的外轮廓搜索方法研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于脆弱性的大气颗粒物重金属健康风险研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于单张低精度深度图的实时精确三维曲面重建

国家自然科学基金

0+阅读 · 2012年12月31日

结合2D图像和3D点云数据的城市建筑物重建关键技术研究

国家自然科学基金

3+阅读 · 2012年12月31日

基于图像光流的全天候机场防侵入关键技术研究

国家自然科学基金

0+阅读 · 2012年12月31日

荧光显微样本3D重建关键技术研究

国家自然科学基金

2+阅读 · 2011年12月31日

用于原位中子衍射的大腔体静高压技术研究

国家自然科学基金

0+阅读 · 2009年12月31日

基于2D视频视觉关注度的3D重建方法研究

国家自然科学基金

0+阅读 · 2009年12月31日

Analogy-Forming Transformers for Few-Shot 3D Parsing

Arxiv

0+阅读 · 2023年5月30日

Subequivariant Graph Reinforcement Learning in 3D Environments

Arxiv

0+阅读 · 2023年5月30日

HuMoR: Human Motion Representation using Topology-Agnostic Transformers for Character Animation Retargeting

Arxiv

0+阅读 · 2023年5月30日

MHSCNet: A Multimodal Hierarchical Shot-aware Convolutional Network for Video Summarization

Arxiv

0+阅读 · 2023年5月30日

GlyphControl: Glyph Conditional Control for Visual Text Generation

Arxiv

0+阅读 · 2023年5月29日

Universal approximation with complex-valued deep narrow neural networks

Arxiv

0+阅读 · 2023年5月29日

Unsupervised Melody-Guided Lyrics Generation

Arxiv

0+阅读 · 2023年5月26日

Visual Attention Methods in Deep Learning: An In-Depth Survey

Arxiv

44+阅读 · 2022年4月16日

Attention Mechanisms in Computer Vision: A Survey

Arxiv

58+阅读 · 2021年11月15日

Efficient Visual Recognition with Deep Neural Networks: A Survey on Recent Advances and New Directions

Arxiv

20+阅读 · 2021年8月30日

VIP会员

相关主题

视觉Transformer

相关VIP内容

【CVPR2023】BiFormer:基于双层路由注意力的视觉Transformer

【CVPR2023】BiFormer:基于双层路由注意力的视觉Transformer

专知会员服务

35+阅读 · 2023年3月20日

【CVPR2023】三维医学图像自监督预训练中的几何视觉相似性学习

【CVPR2023】三维医学图像自监督预训练中的几何视觉相似性学习

专知会员服务

32+阅读 · 2023年3月3日

【CVPR2023】基础模型驱动弱增量学习的语义分割

【CVPR2023】基础模型驱动弱增量学习的语义分割

专知会员服务

18+阅读 · 2023年3月2日

【NeurIPS2022】基于结构聚类的自监督异构图预训练

【NeurIPS2022】基于结构聚类的自监督异构图预训练

专知会员服务

24+阅读 · 2022年10月20日

【ECCV2022】对比视觉Transformer的在线持续学习

【ECCV2022】对比视觉Transformer的在线持续学习

专知会员服务

23+阅读 · 2022年7月29日

【CVPR2022】UKPGAN:一个通用的自我监督的关键点检测器

【CVPR2022】UKPGAN:一个通用的自我监督的关键点检测器

专知会员服务

15+阅读 · 2022年4月5日

【CVPR2022】基于粗-精视觉Transformer的仿射医学图像配准

【CVPR2022】基于粗-精视觉Transformer的仿射医学图像配准

专知会员服务

36+阅读 · 2022年4月2日

【CVPR2022】三元组对比学习的视觉-语言预训练

【CVPR2022】三元组对比学习的视觉-语言预训练

专知会员服务

33+阅读 · 2022年3月3日

【CVPR2021】空间一致性表示学习

专知会员服务

63+阅读 · 2021年3月12日

【CVPR2021】自监督几何感知

【CVPR2021】自监督几何感知

专知会员服务

46+阅读 · 2021年3月6日

热门VIP内容

开通专知VIP会员享更多权益服务

《物联网（IoT）中的无人机通信高效控制》135页

《在GNSS信号降级环境中利用共识实现无人机集群稳健协调》

中程单向攻击无人机的战略意义：俄乌战争启示

《面向无人机集群的避障动态传感器覆盖算法》最新38页

相关资讯

【CVPR2023】基于文本驱动软掩码的多模态表示学习

【CVPR2023】基于文本驱动软掩码的多模态表示学习

专知

1+阅读 · 2023年4月10日

【AAAI2023】对比掩码自动编码器的自监督视频哈希

【AAAI2023】对比掩码自动编码器的自监督视频哈希

专知

1+阅读 · 2022年11月26日

【NeurIPS2022】基于最大熵编码的自监督学习

【NeurIPS2022】基于最大熵编码的自监督学习

专知

1+阅读 · 2022年10月23日

【NeurIPS2022】基于结构聚类的自监督异构图预训练

【NeurIPS2022】基于结构聚类的自监督异构图预训练

专知

1+阅读 · 2022年10月20日

【NeurIPS2022】不用微调的加速大规模视觉Transformer的密集预测

【NeurIPS2022】不用微调的加速大规模视觉Transformer的密集预测

专知

0+阅读 · 2022年10月5日

【CIKM2022】基于双向Transformers对比学习的序列推荐

【CIKM2022】基于双向Transformers对比学习的序列推荐

专知

6+阅读 · 2022年8月10日

【ECCV2022】对比视觉Transformer的在线持续学习

【ECCV2022】对比视觉Transformer的在线持续学习

专知

0+阅读 · 2022年7月30日

【ICML2022】时序自监督视频transformer

【ICML2022】时序自监督视频transformer

专知

1+阅读 · 2022年7月28日

【KDD2022】GraphMAE:自监督掩码图自编码器

【KDD2022】GraphMAE:自监督掩码图自编码器

专知

7+阅读 · 2022年6月12日

【CVPR2020-北京大学】自适应间隔损失的提升小样本学习

【CVPR2020-北京大学】自适应间隔损失的提升小样本学习

专知

12+阅读 · 2020年6月9日

相关基金

大规模多视角高维图像特征提取

国家自然科学基金

3+阅读 · 2017年12月31日

立体图像感知舒适度评价及提升方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

图像中复杂形变物体的外轮廓搜索方法研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于脆弱性的大气颗粒物重金属健康风险研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于单张低精度深度图的实时精确三维曲面重建

国家自然科学基金

0+阅读 · 2012年12月31日

结合2D图像和3D点云数据的城市建筑物重建关键技术研究

国家自然科学基金

3+阅读 · 2012年12月31日

基于图像光流的全天候机场防侵入关键技术研究

国家自然科学基金

0+阅读 · 2012年12月31日

荧光显微样本3D重建关键技术研究

国家自然科学基金

2+阅读 · 2011年12月31日

用于原位中子衍射的大腔体静高压技术研究

国家自然科学基金

0+阅读 · 2009年12月31日

基于2D视频视觉关注度的3D重建方法研究

国家自然科学基金

0+阅读 · 2009年12月31日

相关论文

Analogy-Forming Transformers for Few-Shot 3D Parsing

Arxiv

0+阅读 · 2023年5月30日

Subequivariant Graph Reinforcement Learning in 3D Environments

Arxiv

0+阅读 · 2023年5月30日

HuMoR: Human Motion Representation using Topology-Agnostic Transformers for Character Animation Retargeting

Arxiv

0+阅读 · 2023年5月30日

MHSCNet: A Multimodal Hierarchical Shot-aware Convolutional Network for Video Summarization

Arxiv

0+阅读 · 2023年5月30日

GlyphControl: Glyph Conditional Control for Visual Text Generation

Arxiv

0+阅读 · 2023年5月29日

Universal approximation with complex-valued deep narrow neural networks

Arxiv

0+阅读 · 2023年5月29日

Unsupervised Melody-Guided Lyrics Generation

Arxiv

0+阅读 · 2023年5月26日

Visual Attention Methods in Deep Learning: An In-Depth Survey

Arxiv

44+阅读 · 2022年4月16日

Attention Mechanisms in Computer Vision: A Survey

Arxiv

58+阅读 · 2021年11月15日

Efficient Visual Recognition with Deep Neural Networks: A Survey on Recent Advances and New Directions

Arxiv

20+阅读 · 2021年8月30日

大家都在搜

国防科技创新

大型语言模型

久别重逢话双塔

软件无线电

无人机测控通信自组网技术综述

微信扫码咨询专知VIP会员