基于尺度感知的遮蔽自编码器用于多尺度地理空间表征学习 (Scale-MAE: A Scale-Aware Masked Autoencoder for Multiscale Geospatial Representation Learning) - 专知论文

会员服务 ·

0

多尺度 · 缩放 · 预训练 · 自编码器 · 表征学习 ·

2023 年 4 月 6 日

Scale-MAE: A Scale-Aware Masked Autoencoder for Multiscale Geospatial Representation Learning

翻译：基于尺度感知的遮蔽自编码器用于多尺度地理空间表征学习

Colorado J. Reed,Ritwik Gupta,Shufan Li,Sarah Brockman,Christopher Funk,Brian Clipp,Kurt Keutzer,Salvatore Candido,Matt Uyttendaele,Trevor Darrell

Large, pretrained models are commonly finetuned with imagery that is heavily augmented to mimic different conditions and scales, with the resulting models used for various tasks with imagery from a range of spatial scales. Such models overlook scale-specific information in the data for scale-dependent domains, such as remote sensing. In this paper, we present Scale-MAE, a pretraining method that explicitly learns relationships between data at different, known scales throughout the pretraining process. Scale-MAE pretrains a network by masking an input image at a known input scale, where the area of the Earth covered by the image determines the scale of the ViT positional encoding, not the image resolution. Scale-MAE encodes the masked image with a standard ViT backbone, and then decodes the masked image through a bandpass filter to reconstruct low/high frequency images at lower/higher scales. We find that tasking the network with reconstructing both low/high frequency images leads to robust multiscale representations for remote sensing imagery. Scale-MAE achieves an average of a $2.4 - 5.6\%$ non-parametric kNN classification improvement across eight remote sensing datasets compared to current state-of-the-art and obtains a $0.9$ mIoU to $1.7$ mIoU improvement on the SpaceNet building segmentation transfer task for a range of evaluation scales.

翻译：大型预训练模型通常使用强烈的数据增强来微调，以模拟不同的条件和尺度，得到的模型用于处理一系列不同空间尺度的图像任务。然而，在依赖尺度的领域（如遥感），这种模型会忽略数据中的尺度特异性信息。在本文中，我们提出了一种预训练方法 Scale-MAE，它在预训练过程中明确地学习了已知尺度下不同数据之间的关系。Scale-MAE通过遮蔽已知输入尺度下的输入图像来预训练网络，该图像涵盖的地球区域决定了 ViT 位置编码的尺度，而不是图像分辨率。Scale-MAE使用标准的 ViT 骨干网络对遮蔽的图像进行编码，然后通过带通滤波器对遮蔽的图像进行解码，重建低/高频率的低/高尺度图像。我们发现，要求网络重建低/高频率的图像可以得到用于遥感影像的稳健多尺度表示。与当前最先进的模型相比，Scale-MAE 在八个遥感数据集上平均实现了 $2.4-5.6\%$ 的非参数 kNN 分类改进，并在 SpaceNet 建筑物分割传递任务中，在多个评估尺度上实现了 $0.9$ mIoU 到 $1.7$ mIoU 的提高。

0

相关内容

多尺度

NeurlPS 2022 | 自然语言处理相关论文分类整理

NeurlPS 2022 | 自然语言处理相关论文分类整理

专知会员服务

51+阅读 · 2022年10月2日

【何恺明组新论文】掩码自编码器作为时空学习器，Masked Autoencoders As Spatiotemporal Learners

【何恺明组新论文】掩码自编码器作为时空学习器，Masked Autoencoders As Spatiotemporal Learners

专知会员服务

39+阅读 · 2022年5月19日

【CVPR 2022】NUS&字节跳动提出Shunted Transformer：多尺度Token叠加

【CVPR 2022】NUS&字节跳动提出Shunted Transformer：多尺度Token叠加

专知会员服务

16+阅读 · 2022年4月8日

【NeurIPS 2021 】MST: 用于Transformer视觉表征的Masked自监督解读

【NeurIPS 2021 】MST: 用于Transformer视觉表征的Masked自监督解读

专知会员服务

42+阅读 · 2021年12月11日

何恺明最新论文！用于计算机视觉的可扩展自监督学习方案Masked AutoEncoders

何恺明最新论文！用于计算机视觉的可扩展自监督学习方案Masked AutoEncoders

专知会员服务

30+阅读 · 2021年11月13日

学习具有层次标签的图像表示，Learning Representations For Images With Hierarchical Labels

学习具有层次标签的图像表示，Learning Representations For Images With Hierarchical Labels

专知会员服务

38+阅读 · 2020年4月6日

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

专知会员服务

165+阅读 · 2020年3月18日

【微软研究院】IMAGEBERT: CROSS-MODAL PRE-TRAINING WITH LARGE-SCALE WEAK-SUPERVISED IMAGE-TEXT DATA

【微软研究院】IMAGEBERT: CROSS-MODAL PRE-TRAINING WITH LARGE-SCALE WEAK-SUPERVISED IMAGE-TEXT DATA

专知会员服务

43+阅读 · 2020年1月28日

【表示学习(Representation Learning)】8篇 NeurIPS 2019论文选读

专知会员服务

54+阅读 · 2019年12月22日

[综述]深度学习下的场景文本检测与识别

[综述]深度学习下的场景文本检测与识别

专知会员服务

78+阅读 · 2019年10月10日

自监督榜首！字节跳动提出视觉预训练模型dBOT，重新审视Masked Image Modeling

自监督榜首！字节跳动提出视觉预训练模型dBOT，重新审视Masked Image Modeling

PaperWeekly

0+阅读 · 2022年9月25日

清华、商汤提出SIM方法，让自监督学习兼顾语义对齐与空间分辨能力

清华、商汤提出SIM方法，让自监督学习兼顾语义对齐与空间分辨能力

PaperWeekly

0+阅读 · 2022年6月7日

Multi-Task Learning的几篇综述文章

Multi-Task Learning的几篇综述文章

深度学习自然语言处理

15+阅读 · 2020年6月15日

RoBERTa中文预训练模型：RoBERTa for Chinese

RoBERTa中文预训练模型：RoBERTa for Chinese

PaperWeekly

57+阅读 · 2019年9月16日

vae 相关论文表示学习 1

vae 相关论文表示学习 1

CreateAMind

12+阅读 · 2018年9月6日

【论文推荐】最新六篇知识图谱相关论文—事件演化图、神经词义消歧、增强神经网络、Mem2Seq、用户偏好传播、概率嵌入

【论文推荐】最新六篇知识图谱相关论文—事件演化图、神经词义消歧、增强神经网络、Mem2Seq、用户偏好传播、概率嵌入

专知

19+阅读 · 2018年6月14日

【论文推荐】最新六篇对抗自编码器相关论文—多尺度网络节点表示、生成对抗自编码、逆映射、Wasserstein、条件对抗、去噪

【论文推荐】最新六篇对抗自编码器相关论文—多尺度网络节点表示、生成对抗自编码、逆映射、Wasserstein、条件对抗、去噪

专知

20+阅读 · 2018年4月7日

【论文推荐】最新5篇图像描述生成（Image Caption）相关论文—情感、注意力机制、遥感图像、序列到序列、深度神经结构

【论文推荐】最新5篇图像描述生成（Image Caption）相关论文—情感、注意力机制、遥感图像、序列到序列、深度神经结构

专知

66+阅读 · 2018年1月31日

【论文】图上的表示学习综述

【论文】图上的表示学习综述

机器学习研究会

15+阅读 · 2017年9月24日

【推荐】全卷积语义分割综述

【推荐】全卷积语义分割综述

机器学习研究会

19+阅读 · 2017年8月31日

基于多模态影像多维度直方图特征的肝硬化结节早期癌变微循环构建研究

国家自然科学基金

0+阅读 · 2016年12月31日

基于土地利用回归模型的城市地区PM2.5重金属空间变异特征及其主控因素研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于压缩感知的CMOS 图像传感器关键技术研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于WorldView-3和OP-ELM的矿化蚀变提取方法研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于模糊拓扑及多特征融合的遥感影像亚像元定位

国家自然科学基金

0+阅读 · 2012年12月31日

电离层热层对太阳辐射变化响应的特征时间

国家自然科学基金

0+阅读 · 2012年12月31日

面向对象的土地利用空间多尺度耦合机理研究

国家自然科学基金

0+阅读 · 2011年12月31日

多地区大样本长寿人群的线粒体全基因组特征研究

国家自然科学基金

0+阅读 · 2011年12月31日

基于分布式水文模型的流域尺度土壤湿度遥感数据同化研究

国家自然科学基金

0+阅读 · 2009年12月31日

基于大规模编队飞行微小卫星群的空间传感器网络组网机理研究

国家自然科学基金

1+阅读 · 2009年12月31日

Break-A-Scene: Extracting Multiple Concepts from a Single Image

Arxiv

0+阅读 · 2023年5月25日

Self-aware and Cross-sample Prototypical Learning for Semi-supervised Medical Image Segmentation

Arxiv

0+阅读 · 2023年5月25日

Masked and Permuted Implicit Context Learning for Scene Text Recognition

Arxiv

0+阅读 · 2023年5月25日

Multimodal Relation Extraction with Cross-Modal Retrieval and Synthesis

Arxiv

0+阅读 · 2023年5月25日

Siamese Masked Autoencoders

Arxiv

0+阅读 · 2023年5月23日

Object Segmentation by Mining Cross-Modal Semantics

Arxiv

0+阅读 · 2023年5月23日

Masked Autoencoders Are Scalable Vision Learners

Arxiv

27+阅读 · 2021年11月11日

MVFNet: Multi-View Fusion Network for Efficient Video Recognition

Arxiv

13+阅读 · 2021年1月5日

Pre-training Text Representations as Meta Learning

Arxiv

13+阅读 · 2020年4月12日

Knowledge Graph Transfer Network for Few-Shot Recognition

Arxiv

15+阅读 · 2019年11月21日

VIP会员

文章信息

相关主题

相关VIP内容

NeurlPS 2022 | 自然语言处理相关论文分类整理

NeurlPS 2022 | 自然语言处理相关论文分类整理

专知会员服务

51+阅读 · 2022年10月2日

【何恺明组新论文】掩码自编码器作为时空学习器，Masked Autoencoders As Spatiotemporal Learners

【何恺明组新论文】掩码自编码器作为时空学习器，Masked Autoencoders As Spatiotemporal Learners

专知会员服务

39+阅读 · 2022年5月19日

【CVPR 2022】NUS&字节跳动提出Shunted Transformer：多尺度Token叠加

【CVPR 2022】NUS&字节跳动提出Shunted Transformer：多尺度Token叠加

专知会员服务

16+阅读 · 2022年4月8日

【NeurIPS 2021 】MST: 用于Transformer视觉表征的Masked自监督解读

【NeurIPS 2021 】MST: 用于Transformer视觉表征的Masked自监督解读

专知会员服务

42+阅读 · 2021年12月11日

何恺明最新论文！用于计算机视觉的可扩展自监督学习方案Masked AutoEncoders

何恺明最新论文！用于计算机视觉的可扩展自监督学习方案Masked AutoEncoders

专知会员服务

30+阅读 · 2021年11月13日

学习具有层次标签的图像表示，Learning Representations For Images With Hierarchical Labels

学习具有层次标签的图像表示，Learning Representations For Images With Hierarchical Labels

专知会员服务

38+阅读 · 2020年4月6日

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

专知会员服务

165+阅读 · 2020年3月18日

【微软研究院】IMAGEBERT: CROSS-MODAL PRE-TRAINING WITH LARGE-SCALE WEAK-SUPERVISED IMAGE-TEXT DATA

【微软研究院】IMAGEBERT: CROSS-MODAL PRE-TRAINING WITH LARGE-SCALE WEAK-SUPERVISED IMAGE-TEXT DATA

专知会员服务

43+阅读 · 2020年1月28日

【表示学习(Representation Learning)】8篇 NeurIPS 2019论文选读

专知会员服务

54+阅读 · 2019年12月22日

[综述]深度学习下的场景文本检测与识别

[综述]深度学习下的场景文本检测与识别

专知会员服务

78+阅读 · 2019年10月10日

热门VIP内容

开通专知VIP会员享更多权益服务

操作系统智能体：基于多模态大模型（MLLM）的通用计算设备智能体综述

《美国太空军系统全生命周期建模、仿真与分析效能提升方案》最新84页报告

【博士论文】推进数据高效的深度学习：非参数 Transformer、主动测试与上下文学习

自主人工智能：未来战争是否将是自主化的？

相关资讯

自监督榜首！字节跳动提出视觉预训练模型dBOT，重新审视Masked Image Modeling

自监督榜首！字节跳动提出视觉预训练模型dBOT，重新审视Masked Image Modeling

PaperWeekly

0+阅读 · 2022年9月25日

清华、商汤提出SIM方法，让自监督学习兼顾语义对齐与空间分辨能力

清华、商汤提出SIM方法，让自监督学习兼顾语义对齐与空间分辨能力

PaperWeekly

0+阅读 · 2022年6月7日

Multi-Task Learning的几篇综述文章

Multi-Task Learning的几篇综述文章

深度学习自然语言处理

15+阅读 · 2020年6月15日

RoBERTa中文预训练模型：RoBERTa for Chinese

RoBERTa中文预训练模型：RoBERTa for Chinese

PaperWeekly

57+阅读 · 2019年9月16日

vae 相关论文表示学习 1

vae 相关论文表示学习 1

CreateAMind

12+阅读 · 2018年9月6日

【论文推荐】最新六篇知识图谱相关论文—事件演化图、神经词义消歧、增强神经网络、Mem2Seq、用户偏好传播、概率嵌入

【论文推荐】最新六篇知识图谱相关论文—事件演化图、神经词义消歧、增强神经网络、Mem2Seq、用户偏好传播、概率嵌入

专知

19+阅读 · 2018年6月14日

【论文推荐】最新六篇对抗自编码器相关论文—多尺度网络节点表示、生成对抗自编码、逆映射、Wasserstein、条件对抗、去噪

【论文推荐】最新六篇对抗自编码器相关论文—多尺度网络节点表示、生成对抗自编码、逆映射、Wasserstein、条件对抗、去噪

专知

20+阅读 · 2018年4月7日

【论文推荐】最新5篇图像描述生成（Image Caption）相关论文—情感、注意力机制、遥感图像、序列到序列、深度神经结构

【论文推荐】最新5篇图像描述生成（Image Caption）相关论文—情感、注意力机制、遥感图像、序列到序列、深度神经结构

专知

66+阅读 · 2018年1月31日

【论文】图上的表示学习综述

【论文】图上的表示学习综述

机器学习研究会

15+阅读 · 2017年9月24日

【推荐】全卷积语义分割综述

【推荐】全卷积语义分割综述

机器学习研究会

19+阅读 · 2017年8月31日

相关论文

Break-A-Scene: Extracting Multiple Concepts from a Single Image

Arxiv

0+阅读 · 2023年5月25日

Self-aware and Cross-sample Prototypical Learning for Semi-supervised Medical Image Segmentation

Arxiv

0+阅读 · 2023年5月25日

Masked and Permuted Implicit Context Learning for Scene Text Recognition

Arxiv

0+阅读 · 2023年5月25日

Multimodal Relation Extraction with Cross-Modal Retrieval and Synthesis

Arxiv

0+阅读 · 2023年5月25日

Siamese Masked Autoencoders

Arxiv

0+阅读 · 2023年5月23日

Object Segmentation by Mining Cross-Modal Semantics

Arxiv

0+阅读 · 2023年5月23日

Masked Autoencoders Are Scalable Vision Learners

Arxiv

27+阅读 · 2021年11月11日

MVFNet: Multi-View Fusion Network for Efficient Video Recognition

Arxiv

13+阅读 · 2021年1月5日

Pre-training Text Representations as Meta Learning

Arxiv

13+阅读 · 2020年4月12日

Knowledge Graph Transfer Network for Few-Shot Recognition

Arxiv

15+阅读 · 2019年11月21日

相关基金

基于多模态影像多维度直方图特征的肝硬化结节早期癌变微循环构建研究

国家自然科学基金

0+阅读 · 2016年12月31日

基于土地利用回归模型的城市地区PM2.5重金属空间变异特征及其主控因素研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于压缩感知的CMOS 图像传感器关键技术研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于WorldView-3和OP-ELM的矿化蚀变提取方法研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于模糊拓扑及多特征融合的遥感影像亚像元定位

国家自然科学基金

0+阅读 · 2012年12月31日

电离层热层对太阳辐射变化响应的特征时间

国家自然科学基金

0+阅读 · 2012年12月31日

面向对象的土地利用空间多尺度耦合机理研究

国家自然科学基金

0+阅读 · 2011年12月31日

多地区大样本长寿人群的线粒体全基因组特征研究

国家自然科学基金

0+阅读 · 2011年12月31日

基于分布式水文模型的流域尺度土壤湿度遥感数据同化研究

国家自然科学基金

0+阅读 · 2009年12月31日

基于大规模编队飞行微小卫星群的空间传感器网络组网机理研究

国家自然科学基金

1+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员