数据太少怎么办？试试自监督学习，CV训练新利器，fast.ai新教程，LeCun点评

会员服务 ·

数据太少怎么办？试试自监督学习，CV训练新利器，fast.ai新教程，LeCun点评

2020 年 1 月 19 日 量子位

十三发自凹非寺
量子位报道 | 公众号 QbitAI

数据少，又没有预训练模型，怎么破？

给你个秘密武器——自监督学习。

数据科学家 Jeremy Howard 发布一条Twitter：

在医学图像领域，我们经常需要靠一点点的数据来做很多工作。

在这个问题上，有一种被低估的方法，正是自监督学习，简直太神奇！

还附上了与之相关的最新fast.ai教程。

△地址：https://www.fast.ai/2020/01/13/self_supervised/

这一推文立即引起了大量网友的关注，可谓是好评如潮。

这是篇了不起的文章，太酷了！

这是一种简单且强大的技术。

接下来，让我们一起看下，自监督学习到底有多厉害。

自监督学习简介

在多数情况下，训练神经网络都应该从一个预训练(pre-trained)模型开始，然后再对它进行微调。

通过预训练模型，可以比从头开始训练，节省1000倍的数据。

那么试想一下，你所在的领域中，要是没有预训练模型，该怎么办？

例如在医学图像领域，就很少有预先训练过的模型。

而最近有一篇比较有意思的论文，就对这方面问题做了研究。

△论文地址：https://arxiv.org/pdf/1902.07208.pdf

研究发现，即便使用ImageNet模型(预训练过的)中的前几层(early layers)，也可以提高医学成像模型的训练速度和最终准确性。

所以说，即便某个通用预训练模型，不在你的研究领域范围内，也可以尝试使用它。

然而，这项研究也指出了一个问题：

其改进程度并不大。

那有没有不需要大量数据，还能取得较好效果的技术呢？

自监督学习就是一个秘密武器。

它可以被看作是机器学习的一种“理想状态”，模型直接从无标签数据中自行学习，无需标注数据。

举个例子，ULMFiT(一种NLP训练方法)的关键就是自监督学习，极大的提高了NLP领域的技术水平。

△论文地址：https://arxiv.org/abs/1801.06146

在基于自监督学习的方法，首先训练了一个语言模型，可以预测某句话的下一个单词。

而当把这个预训练好的模型，用在另一个任务中时(例如情绪分析)，就可以用少量的数据，得到最新的结果。

计算机视觉中的自监督学习

在自监督学习中，用于预训练的任务被称为pretext task(前置/代理任务)。

然后用于微调的任务被称为downstream task(下游任务)。

尽管目前在NLP领域中，自监督学习的应用还算普遍，但是在计算机视觉领域中，它却很少使用。

也许是因为诸如ImageNet这样的预训练模型比较成功，所以像医学成像领域中的研究人员，可能不太熟悉自监督学习的必要性。

接下来的内容便展示了CV领域中应用自监督学习的论文例子。

希望越来越多的人可以重视这一关键技术。

图像着色(Colorization)

Colorful Image Colorization

△论文地址：https://arxiv.org/abs/1603.08511

Learning Representations for Automatic Colorization

△论文地址：https://arxiv.org/pdf/1603.06668

Tracking Emerges by Colorizing Videos

△https://arxiv.org/pdf/1806.09594

效果展示

将图像patch放在正确位置

Unsupervised Learning of Visual Representations by Solving Jigsaw Puzzles

△论文地址：https://arxiv.org/pdf/1603.09246

Unsupervised Visual Representation Learning by Context Prediction

△论文地址：https://arxiv.org/pdf/1505.05192

效果展示

按照正确的顺序放置帧

Unsupervised Representation Learning by Sorting Sequences

△论文地址：https://arxiv.org/pdf/1708.01246

Shuffle and Learn: Unsupervised Learning using Temporal Order Verification

△论文地址：https://arxiv.org/pdf/1603.08561

效果展示

图像修复(Inpainting)

Context Encoders: Feature Learning by Inpainting

△论文地址：https://arxiv.org/pdf/1604.07379

效果展示

分类损坏的图像

Self-Supervised Feature Learning by Learning to Spot Artifacts

△论文地址：https://zpascal.net/cvpr2018/Jenni_Self-Supervised_Feature_Learning_CVPR_2018_paper.pdf

效果展示

选择一个pretext task

为了在计算机视觉中使用自监督学习，需要回答一个非常重要的问题：

应该使用哪种pretext task？

很多人选择将“自动编码器”作为pretext task。

自动编码器将输入图像转换为一种简化的形式，然后将其再转换回尽可能接近原始图像的内容。

然而，我们不仅需要再生原始图像内容，还需要再生原始图像中的所有噪声。

因此，如果要在下游任务中生成更高质量的图像，那么这将是一个不好的选择。

此外，还需要确保pretext task是人类可以做的事情。

例如，预测视频的下一帧，如果预测时间点过于遥远，那也是不太可行的。

为下游任务进行微调

一旦用pretext task预训练了模型，就可以继续进行微调。

在这一点上，应该把这个问题视为一种迁移学习，不要太多的改变预训练模型的权重。

总体而言，Jeremy Howard不建议浪费太多时间来创建“完美”的pretext模型，而要构建尽可能快速且容易的模型。

然后，需要确保这个pretext模型是否可以满足下游任务。

并且，事实证明，通常不需要非常复杂的pretext 任务，就可以在下游任务中取得较好的结果。

Yann LeCun更好的方法建议

Jeremy Howard在发出这条Twitter之后，深度学习三巨头之一的Yann LeCun对其回复。

Yann LeCun提出了更好的建议：

现在，学习视觉特征最佳SSL方法是使用孪生神经网络(Siamese network)来学习嵌入。

△论文地址：https://arxiv.org/pdf/1912.01991

Jeremy Howard对LeCun回复道：

将PiRL添加到任意pretext task中是非常好的一件事情。

Jeremy Howard

△Jeremy Howard

Jeremy Howard，澳大利亚数据科学家和企业家。fast.ai创始研究人员之一，fast.ai是一家致力于使深度学习更易用的研究所。

在此之前，他曾是Enlitic（位于旧金山的高级机器学习公司）的首席执行官兼创始人。

传送门

Twitter：
https://twitter.com/jeremyphoward/status/1216882509692059650

fast.ai博客：
https://www.fast.ai/2020/01/13/self_supervised/

作者系网易新闻·网易号“各有态度”签约作者

— 完 —

AI内参|把握AI发展新机遇

拓展优质人脉，获取最新AI资讯&论文教程，欢迎加入AI内参社群一起学习~

跟大咖交流 | 进入AI社群

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

喜欢就点「在看」吧 !

登录查看更多

相关内容

自监督学习

关注 523

自监督学习（self-supervised learning）可以被看作是机器学习的一种“理想状态”，模型直接从无标签数据中自行学习，无需标注数据。

【CVPR2020-微软&FB】自监督学习的视觉语言建模，115页ppt讲述多模态预训练进展

专知会员服务

59+阅读 · 2020年6月18日

最新《深度半监督学习》综述论文，43页pdf

专知会员服务

156+阅读 · 2020年6月12日

【牛津大学&DeepMind】自监督学习教程，141页ppt

专知会员服务

181+阅读 · 2020年5月29日

【CVPR2020-Facebook AI】前置不变表示的自监督学习

专知会员服务

47+阅读 · 2020年4月19日

【Facebook AI】自监督学习在计算机视觉应用最新概述，108页ppt Self-supervised learning

专知会员服务

165+阅读 · 2020年4月19日

【ACL2020-CMU】预训练模型权重攻击，Weight Poisoning Attacks on PTM

专知会员服务

12+阅读 · 2020年4月16日

【Google-CMU】元伪标签的元学习，Meta Pseudo Labels

专知会员服务

32+阅读 · 2020年3月30日

【MIT-Google】反思小样本图像分类:一个好的嵌入是你所需要的全部?

专知会员服务

36+阅读 · 2020年3月28日

【Amazon】使用预先训练的Transformer模型进行数据增强

专知会员服务

58+阅读 · 2020年3月6日

图像分类最新技术综述论文: 21种半监督、自监督和无监督学习方法一较高低

专知会员服务

185+阅读 · 2020年2月22日

【Google-CMU】元伪标签的元学习，Meta Pseudo Labels

专知

48+阅读 · 2020年3月30日

【自监督学习】OpenAI科学家一文详解自监督学习

产业智能官

25+阅读 · 2020年3月18日

OpenAI科学家一文详解自监督学习

新智元

18+阅读 · 2019年11月20日

训练数据多少才够用

专知

16+阅读 · 2019年5月4日

一文看尽2018全年AI技术大突破

量子位

4+阅读 · 2018年12月21日

谷歌最强NLP模型BERT官方中文版来了！多语言模型支持100种语言

新智元

5+阅读 · 2018年11月6日

解读谷歌最强NLP模型BERT：模型、数据和训练

未来产业促进会

5+阅读 · 2018年10月20日

OpenAI：无监督训练加微小调整，只用一个模型即可解决多种NLP任务

论智

9+阅读 · 2018年6月12日

Fast.ai推出NLP最新迁移学习方法「微调语言模型」，可将误差减少超过20%！

人工智能学家

5+阅读 · 2018年1月21日

教程帖：深度学习模型的部署

论智

8+阅读 · 2018年1月20日

Self-Supervised Learning For Few-Shot Image Classification

Arxiv

19+阅读 · 2019年11月14日

Unsupervised Domain Adaptation on Reading Comprehension

Arxiv

5+阅读 · 2019年11月13日

S$^\mathbf{4}$L: Self-Supervised Semi-Supervised Learning

Arxiv

5+阅读 · 2019年5月9日

Few-shot Learning with Meta Metric Learners

Arxiv

13+阅读 · 2019年1月26日

Multi-class Classification without Multi-class Labels

Arxiv

4+阅读 · 2019年1月2日

Deep Metric Transfer for Label Propagation with Limited Annotated Data

Arxiv

3+阅读 · 2018年12月20日

Show, Tell and Discriminate: Image Captioning by Self-retrieval with Partially Labeled Data

Arxiv

4+阅读 · 2018年7月23日

Capsule Networks against Medical Imaging Data Challenges

Arxiv

3+阅读 · 2018年7月19日

Universal Language Model Fine-tuning for Text Classification

Arxiv

3+阅读 · 2018年5月23日

Fast Linear Model for Knowledge Graph Embeddings

Arxiv

4+阅读 · 2017年10月30日

VIP会员