超越ImageNet预训练，Meta AI提出SplitMask，小数据集也能自监督预训练

2022 年 1 月 17 日 PaperWeekly

©作者 | 陈萍

来源 | 机器之心

大规模数据集对自监督预训练是必要的吗？Meta AI 认为，小数据集也能自监督预训练，效果还不错。

目前，计算机视觉神经网络被大量参数化：它们通常有数千万或数亿个参数，这是它们成功利用大型图像集合 (如 ImageNet) 的关键。然而，这些高容量模型往往会在小型（包含数十万张图像）甚至中型数据集上过度拟合。因此，有研究者指出在 2014 年：学习 CNN 的过程相当于估计模型数百万个参数，这需要大量的带标注的数据。

当今应对数据匮乏问题的主流学习范式是，即先在大型数据集（如 Imagenet ）上对模型进行预训练，之后基于特定的任务以较少的数据集微调模型。这一训练过程通常优于从头开始训练（例如，从头随机初始化参数）。

这种学习范式在许多任务中取得了 SOTA 性能，例如检测、分割、动作识别等。尽管这种方法取得了成功，但我们很难将这种大规模标签数据集提供的好处与预训练范式的局限性区分开来。除此以外，在一个数据集上预训练模型并在另一个数据集上对其进行微调会引入差异。

来自 Meta AI 等机构的研究者，考虑了一个仅利用目标任务数据的自监督预训练场景。所用数据集包括如 Stanford Cars、Sketch 或 COCO，它们的数量级小于 Imagenet。

该研究表明，本文介绍的去噪自编码器（如 BEiT 或其变体），对预训练数据的类型和大小更具有鲁棒性。与来自 ImageNet 预训练相比，该研究获得了具有竞争力的性能。在 COCO 上，当仅使用 COCO 图像进行预训练时，在检测和实例分割任务上，性能超过了监督 ImageNet 预训练。

论文地址：

https://arxiv.org/pdf/2112.10740.pdf

论文介绍

本文研究了图像的数量及其性质如何影响自监督模型的质量。在这个初步分析中，该研究将 BEiT 和 SplitMask（在第 4 节中的变体）分别作为去噪自编码器和联合嵌入方法 DINO（Facebook 发布的非监督学习）的代表。

SplitMask 是一种基于视觉 transformer 的去噪自动编码器变体，方法概述如图 4 所示：

SplitMask 架构

SplitMask

SplitMask 基于三个步骤完成：分解（split）、修复（inpaint）和匹配。与标准视觉 transformer 一样，图像首先被分解为 16×16 的 patch，之后 patch 又被分成两个不相交的子集 A 和 B。接下来，研究者使用子集 A 的 patch 表示和浅层解码器，来修复子集 B 的 patch，反之亦然。最后，通过对每个分支对应的解码器输出的 patch 表示进行平均池化，得到全局图像描述符。之后研究者尝试将从子集 A 获得的图像全局描述符与从子集 B 获得的图像全局描述符相匹配。

编码器 - 解码器架构

SplitMask 实现 pipeline 依赖于编码器 - 解码器架构。模型的编码器是一个标准的视觉 transformer，具有绝对位置嵌入。与 BEiT 方法相反，该编码器不处理掩码 token（masked tokens）表示，而只处理观察到的 token 。因此，图像被划分为线性嵌入 patch，并将位置嵌入添加到这些表示中。这些表示分为两个子集 A 和 B，由标准 transformer 层独立处理。

全局对比损失

除了在 patch 级别计算 MIM 损失之外，该研究还在图像级别使用对比损失。为此，该研究对解码器的所有输出表示应用平均池化操作。每个图像获得两个表示 x_a 和 x_b，对应于观察到的 patch 子集 A 和 B。InfoNCE 损失 [59] 应用于这些表示：

实验

首先，实验研究了计算机视觉模型在各种数据集上的预训练和微调，详见表 3，表中列出了数据集名称、训练和测试数据分布等信息。

预测任务

首先，该研究使用 Mask R-CNN pipeline [8] 在 COCO 目标检测和实例分割数据集上对 SplitMask 进行评估，表 4 为评估结果。

由结果可得，在相同的 BEiT 模型上，单独在 COCO 数据集上预训练的模型与在 ImageNet 上预训练模型相比，前者下游任务性能更好。例如，当使用基于 ViT 的主干时，在 COCO 上而不是 ImageNet 上进行预训练会可使 box AP 提升 +0.4。

表 6 为数字分类数据集实证评估结果：

表 7 展示了 SplitMask 方法使用 ViT-S 和 ViT-B 主干以及 300 个 epoch 的预训练与其他最近的基于 Transformer 的自监督学习方法相比的性能：

特别鸣谢

感谢 TCCI 天桥脑科学研究院对于 PaperWeekly 的支持。TCCI 关注大脑探知、大脑功能和大脑健康。

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

📝 稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown 格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道：

• 投稿邮箱：hr@paperweekly.site

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

登录查看更多

相关内容

SplitMask

关注 0

【CVPR 2022】基于灵活模态Transformer的人脸防伪 FM-ViT: Flexible Modal Vision Transformers for Face Anti-Spoofing

专知会员服务

17+阅读 · 2022年3月19日

【CVPR2021】密集对比学习的自监督视觉预训练

专知会员服务

39+阅读 · 2021年5月16日

SiT: 自监督视觉Transformer

专知会员服务

65+阅读 · 2021年4月11日

【AAAI2021】图神经网路自监督预训练策略

专知会员服务

41+阅读 · 2021年1月9日

1750亿参数！GPT-3来了！31位作者，OpenAI发布小样本学习器语言模型

专知会员服务

73+阅读 · 2020年5月30日

新杀器来了！Facebook AI提出DETR：用Transformers来进行端到端的目标检测

专知会员服务

51+阅读 · 2020年5月28日

Facebook AI何恺明等最新研究MoCo(动量对比学习)第二版，超越Hinton的SimCLR，刷新ImageNet准确率

专知会员服务

36+阅读 · 2020年3月11日

谷歌提出“T5” 新NLP模型，突破迁移学习局限，多基准测试达SOTA！

专知会员服务

41+阅读 · 2020年2月26日

重磅！Geoffrey Hinton新论文「视觉表示对比学习简单框架」自监督学习建立新SOTA-ImageNet准确率76.5%

专知会员服务

33+阅读 · 2020年2月15日

【微软研究院】IMAGEBERT: CROSS-MODAL PRE-TRAINING WITH LARGE-SCALE WEAK-SUPERVISED IMAGE-TEXT DATA

专知会员服务

43+阅读 · 2020年1月28日

纯MLP在下游任务上欠佳？Meta AI等提出稀疏MLP，超越transformer

机器之心

0+阅读 · 2022年4月16日

CV之后，纯MLP架构又来搞NLP了，性能媲美预训练大模型

机器之心

0+阅读 · 2022年2月14日

仅使用 2040 张图像训练视觉Transformer！南大新作IDMM：小数据集也能训的好！

CVer

3+阅读 · 2022年2月1日

只需2040张图片，训练视觉Transformer：南大吴建鑫团队提出IDMM

极市平台

0+阅读 · 2022年2月1日

视觉Transformer BERT预训练新方法！中科大&MSRA等提出PeCo：卷起来了！

CVer

1+阅读 · 2021年12月7日

中科大、MSRA提出视觉Transformer BERT预训练新方式，优于MAE、BEiT

PaperWeekly

1+阅读 · 2021年12月5日

视觉Transformer BERT预训练新方式：中科大、MSRA等提出PeCo，优于MAE、BEiT

机器之心

0+阅读 · 2021年12月3日

何恺明MAE大火之后，想梳理下视觉Transformer？这篇综述帮你梳理了100多个

机器之心

1+阅读 · 2021年11月26日

Transformer大升级！谷歌、OpenAI联合推出分层模型，刷榜ImageNet32刷新SOTA

新智元

1+阅读 · 2021年11月14日

再发力！Facebook AI何恺明等最新研究MoCo(动量对比学习)第二版，超越Hinton的SimCLR，刷新SOTA准确率

专知

48+阅读 · 2020年3月11日

标签共享子空间多源迁移学习方法及在雷达辐射源识别中的研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向不平衡分类任务的主动学习方法研究

国家自然科学基金

4+阅读 · 2013年12月31日

多领域网络文本数据的自适应结构化分类方法研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于小框架的pMRI图像重建研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于隐含关系的视觉显著学习方法

国家自然科学基金

0+阅读 · 2012年12月31日

指挥空间协作交互任务认知模型与通道整合方法研究

国家自然科学基金

3+阅读 · 2012年12月31日

目标函数多次波逆时叠前偏移

国家自然科学基金

0+阅读 · 2012年12月31日

面向图像与视频特征表示的深度编码方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

数据集多尺度特征提取与表达的视觉凹度方法

国家自然科学基金

1+阅读 · 2011年12月31日

基于局部不变性特征流的相异场景密集匹配

国家自然科学基金

0+阅读 · 2011年12月31日

CobBO: Coordinate Backoff Bayesian Optimization with Two-Stage Kernels

Arxiv

0+阅读 · 2022年4月19日

On the Locality of Attention in Direct Speech Translation

Arxiv

0+阅读 · 2022年4月19日

Self-Calibrated Efficient Transformer for Lightweight Super-Resolution

Arxiv

1+阅读 · 2022年4月19日

Understanding Toxicity Triggers on Reddit in the Context of Singapore

Arxiv

0+阅读 · 2022年4月19日

Multimodal Token Fusion for Vision Transformers

Arxiv

3+阅读 · 2022年4月19日

Subset selection for linear mixed models

Arxiv

1+阅读 · 2022年4月18日

DialAug: Mixing up Dialogue Contexts in Contrastive Learning for Robust Conversational Modeling

Arxiv

0+阅读 · 2022年4月15日

Challenges for Open-domain Targeted Sentiment Analysis

Arxiv

1+阅读 · 2022年4月15日

Poolingformer: Long Document Modeling with Pooling Attention

Arxiv

14+阅读 · 2021年5月10日

Orthogonal Relation Transforms with Graph Context Modeling for Knowledge Graph Embedding

Arxiv

12+阅读 · 2020年4月15日

VIP会员