超越ImageNet预训练,Meta AI提出SplitMask,小数据集也能自监督预训练

2022 年 1 月 17 日 PaperWeekly


©作者 | 陈萍

来源 | 机器之心


大规模数据集对自监督预训练是必要的吗?Meta AI 认为,小数据集也能自监督预训练,效果还不错。


目前,计算机视觉神经网络被大量参数化:它们通常有数千万或数亿个参数,这是它们成功利用大型图像集合 (如 ImageNet) 的关键。然而,这些高容量模型往往会在小型(包含数十万张图像)甚至中型数据集上过度拟合。因此,有研究者指出在 2014 年:学习 CNN 的过程相当于估计模型数百万个参数,这需要大量的带标注的数据。 

 当今应对数据匮乏问题的主流学习范式是,即先在大型数据集(如 Imagenet )上对模型进行预训练,之后基于特定的任务以较少的数据集微调模型。这一训练过程通常优于从头开始训练(例如,从头随机初始化参数)。

这种学习范式在许多任务中取得了 SOTA 性能,例如检测、分割、动作识别等。尽管这种方法取得了成功,但我们很难将这种大规模标签数据集提供的好处与预训练范式的局限性区分开来。除此以外,在一个数据集上预训练模型并在另一个数据集上对其进行微调会引入差异。

来自 Meta AI 等机构的研究者,考虑了一个仅利用目标任务数据的自监督预训练场景。所用数据集包括如 Stanford Cars、Sketch 或 COCO,它们的数量级小于 Imagenet。

该研究表明,本文介绍的去噪自编码器(如 BEiT 或其变体),对预训练数据的类型和大小更具有鲁棒性。与来自 ImageNet 预训练相比,该研究获得了具有竞争力的性能。在 COCO 上,当仅使用 COCO 图像进行预训练时,在检测和实例分割任务上,性能超过了监督 ImageNet 预训练。


论文地址:
https://arxiv.org/pdf/2112.10740.pdf

论文介绍

本文研究了图像的数量及其性质如何影响自监督模型的质量。在这个初步分析中,该研究将 BEiT 和 SplitMask(在第 4 节中的变体)分别作为去噪自编码器和联合嵌入方法 DINO(Facebook 发布的非监督学习) 的代表。

 SplitMask 是一种基于视觉 transformer 的去噪自动编码器变体,方法概述如图 4 所示:

SplitMask 架构

SplitMask 

SplitMask 基于三个步骤完成:分解(split)、修复(inpaint)和匹配。与标准视觉 transformer 一样,图像首先被分解为 16×16 的 patch,之后 patch 又被分成两个不相交的子集 A 和 B。接下来,研究者使用子集 A 的 patch 表示和浅层解码器,来修复子集 B 的 patch,反之亦然。最后,通过对每个分支对应的解码器输出的 patch 表示进行平均池化,得到全局图像描述符。之后研究者尝试将从子集 A 获得的图像全局描述符与从子集 B 获得的图像全局描述符相匹配。 

编码器 - 解码器架构

SplitMask 实现 pipeline 依赖于编码器 - 解码器架构。模型的编码器是一个标准的视觉 transformer,具有绝对位置嵌入。与 BEiT 方法相反,该编码器不处理掩码 token(masked tokens)表示,而只处理观察到的 token 。因此,图像被划分为线性嵌入 patch,并将位置嵌入添加到这些表示中。这些表示分为两个子集 A 和 B,由标准 transformer 层独立处理。

全局对比损失

除了在 patch 级别计算 MIM 损失之外,该研究还在图像级别使用对比损失。为此,该研究对解码器的所有输出表示应用平均池化操作。每个图像获得两个表示 x_a 和 x_b,对应于观察到的 patch 子集 A 和 B。InfoNCE 损失 [59] 应用于这些表示:


实验

首先,实验研究了计算机视觉模型在各种数据集上的预训练和微调,详见表 3,表中列出了数据集名称、训练和测试数据分布等信息。



预测任务

首先,该研究使用 Mask R-CNN pipeline [8] 在 COCO 目标检测和实例分割数据集上对 SplitMask 进行评估,表 4 为评估结果。

由结果可得,在相同的 BEiT 模型上,单独在 COCO 数据集上预训练的模型与在 ImageNet 上预训练模型相比,前者下游任务性能更好。例如,当使用基于 ViT 的主干时,在 COCO 上而不是 ImageNet 上进行预训练会可使 box AP 提升 +0.4。


表 6 为数字分类数据集实证评估结果:


表 7 展示了 SplitMask 方法使用 ViT-S 和 ViT-B 主干以及 300 个 epoch 的预训练与其他最近的基于 Transformer 的自监督学习方法相比的性能:



特别鸣谢

感谢 TCCI 天桥脑科学研究院对于 PaperWeekly 的支持。TCCI 关注大脑探知、大脑功能和大脑健康。



更多阅读




#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编




🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧




登录查看更多
0

相关内容

专知会员服务
38+阅读 · 2021年5月16日
专知会员服务
63+阅读 · 2021年4月11日
专知会员服务
40+阅读 · 2021年1月9日
国家自然科学基金
4+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
Arxiv
3+阅读 · 2022年4月19日
Arxiv
1+阅读 · 2022年4月18日
Challenges for Open-domain Targeted Sentiment Analysis
VIP会员
相关基金
国家自然科学基金
4+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
Top
微信扫码咨询专知VIP会员