题目: Large Scale Learning of General Visual Representations for Transfer

摘要: 在训练深层视觉神经网络时,预训练表示的传递提高了样本效率,简化了超参数整定。我们重新审视了在大监督数据集上进行预训练和微调目标任务权重的范例。我们扩大了训练前的规模,并创建了一个简单的配方,我们称之为大转移(BiT)。通过组合一些精心挑选的组件,并使用简单的启发式进行传输,我们在20多个数据集上获得了很强的性能。BiT在一系列出人意料的数据体系中表现良好——从10到100万个标记示例。BiT在ILSVRC-2012上达到87.8%的top-1精度,在CIFAR-10上达到99.3%,在视觉任务适应基准(包括19个任务)上达到76.7%。在小型数据集上,ILSVRC-2012每类25个示例的BiT达到86.4%,CIFAR-10每类10个示例的BiT达到97.6%。我们对导致高传输性能的主要组件进行了详细的分析。

作者简介: Alexander Kolesnikov,谷歌仪器科学家。个人主页:[https://neutrons.ornl.gov/contacts/kolesnikovai]{https://neutrons.ornl.gov/contacts/kolesnikovai}

成为VIP会员查看完整内容
0
8

相关内容

机器学习的一个分支,它基于试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的一系列算法。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等

在为视觉训练深度神经网络时,预训练表示的迁移提高了样本效率并简化了超参数调整。我们回顾了在大型监督数据集上进行预训练和在目标任务上对模型进行微调的范例。我们扩大了预训练的规模,并提出了一个简单的方法,我们称之为大迁移(BiT)。通过组合一些精心选择的组件,并使用一个简单的启发式传输,我们在20多个数据集上实现了强大的性能。BiT在非常广泛的数据范围内执行得非常好——从每个类1个示例到总共100万个示例。BiT在ILSVRC-2012上达到87.5%的top-1准确率,在CIFAR-10上达到99.4%,在19个任务的视觉任务适应基准(VTAB)上达到76.3%。在小型数据集上,在ILSVRC-2012上BiT达到了76.8%,每个类有10个例子,在CIFAR-10上达到了97.0%,每个类有10个例子。我们对导致高迁移性能的主要部件进行了详细的分析。

成为VIP会员查看完整内容
0
30

交叉熵是图像分类模型监督训练中应用最广泛的损失函数。在这篇论文中,我们提出了一种新的训练方法,在不同架构和数据扩充的监督学习任务中,它的表现始终优于交叉熵。我们修改了批量对比损失,这是最近被证明在自监督学习强大表示是非常有效的。我们能够比交叉熵更有效地利用标签信息。在嵌入空间中,将同一类的点聚在一起,同时将不同类的样本聚在一起。除此之外,我们还利用了关键的成分,如大批量和标准化嵌入,这些已经被证明有利于自监督学习。在ResNet-50和ResNet-200上,我们的交叉熵性能都超过了1%,在使用自动增广数据增强的方法中,我们设置了78.8%的最新水平。这一损失也清楚地表明,在校准和准确性方面,对标准基准的自然损坏具有鲁棒性。与交叉熵相比,我们的监督对比损失更稳定的超参数设置,如优化或数据扩充。

成为VIP会员查看完整内容
0
52

【导读】Yann Lecun在纽约大学开设的2020春季《深度学习》课程,干货满满。最新的一期是来自Facebook AI的研究科学家Ishan Misra讲述了计算机视觉中的自监督学习最新进展,108页ppt,很不错报告。

在过去的十年中,许多不同的计算机视觉问题的主要成功方法之一是通过对ImageNet分类进行监督学习来学习视觉表示。并且,使用这些学习的表示,或学习的模型权值作为其他计算机视觉任务的初始化,在这些任务中可能没有大量的标记数据。

但是,为ImageNet大小的数据集获取注释是非常耗时和昂贵的。例如:ImageNet标记1400万张图片需要大约22年的人类时间。

因此,社区开始寻找替代的标记过程,如社交媒体图像的hashtags、GPS定位或自我监督方法,其中标签是数据样本本身的属性。

什么是自监督学习?

定义自我监督学习的两种方式:

  • 基础监督学习的定义,即网络遵循监督学习,标签以半自动化的方式获得,不需要人工输入。

  • 预测问题,其中一部分数据是隐藏的,其余部分是可见的。因此,其目的要么是预测隐藏数据,要么是预测隐藏数据的某些性质。

自监督学习与监督学习和非监督学习的区别:

  • 监督学习任务有预先定义的(通常是人为提供的)标签,

  • 无监督学习只有数据样本,没有任何监督、标记或正确的输出。

  • 自监督学习从给定数据样本的共现形式或数据样本本身的共现部分派生出其标签。

自然语言处理中的自监督学习

Word2Vec

  • 给定一个输入句子,该任务涉及从该句子中预测一个缺失的单词,为了构建文本前的任务,该任务特意省略了该单词。

  • 因此,这组标签变成了词汇表中所有可能的单词,而正确的标签是句子中省略的单词。

  • 因此,可以使用常规的基于梯度的方法对网络进行训练,以学习单词级表示。

为什么自监督学习

自监督学习通过观察数据的不同部分如何交互来实现数据的学习表示。从而减少了对大量带注释数据的需求。此外,可以利用可能与单个数据样本相关联的多个模式。

计算机视觉中的自我监督学习

通常,使用自监督学习的计算机视觉管道涉及执行两个任务,一个前置任务和一个下游任务。

  • 下游任务可以是任何类似分类或检测任务的任务,但是没有足够的带注释的数据样本。

  • Pre-text task是为学习视觉表象而解决的自监督学习任务,其目的是利用所学习的表象,或下游任务在过程中获得的模型权值。

发展Pre-text任务

  • 针对计算机视觉问题的文本前任务可以使用图像、视频或视频和声音来开发。

  • 在每个pre-text任务中,都有部分可见和部分隐藏的数据,而任务则是预测隐藏的数据或隐藏数据的某些属性。

下载链接: 链接: https://pan.baidu.com/s/1gNK4DzqtAMXyrD1fBFGa-w 提取码: ek7i

成为VIP会员查看完整内容
0
122

主题: Heterogeneous Graph-based Knowledge Transfer for Generalized Zero-shot Learning

摘要: 广义零样本学习(GZSL)解决了同时涉及可见类和不可见类的实例分类问题。关键问题是如何有效地将从可见类学习到的模型转换为不可见类。GZSL中现有的工作通常假设关于未公开类的一些先验信息是可用的。然而,当新的不可见类动态出现时,这种假设是不现实的。为此,我们提出了一种新的基于异构图的知识转移方法(HGKT),该方法利用图神经网络对GZSL、不可知类和不可见实例进行知识转移。具体地说,一个结构化的异构图,它是由所见类的高级代表节点构造而成,这些代表节点通过huasstein-barycenter来选择,以便同时捕获类间和类内的关系,聚集和嵌入函数可以通过图神经网络来学习,它可以用来计算不可见类的嵌入,方法是从它们的内部迁移知识。在公共基准数据集上的大量实验表明,我们的方法达到了最新的结果。

成为VIP会员查看完整内容
0
50

题目: TinyMBERT: Multi-Stage Distillation Framework for Massive Multi-lingual NER

简介: 深度和大型预训练语言模型是各种自然语言处理任务的最新技术。但是,这些模型的巨大规模可能会阻碍在实践中使用它们。一些近期和并行的工作使用知识蒸馏将这些巨大的模型压缩为浅层模型。在这项工作中,我们重点研究多语言命名实体识别(NER)的知识提炼。特别是,我们研究了几种蒸馏策略,并提出了一个阶段性的优化方案,该方案利用了与教师架构无关的教师内部表示形式,并表明它优于先前工作中采用的策略。此外,我们调查了几个因素的作用,例如未标记数据的数量,注释资源,模型架构和推理延迟仅举几例。我们证明了我们的方法可以对MBERT类教师模型进行大规模压缩,在参数推断方面最多可压缩35倍,在延迟方面则可压缩51倍,同时为41种语言的NER有95%的F1分数。

成为VIP会员查看完整内容
0
30

题目

跨语言表示学习,Unsupervised Cross-lingual Representation Learning at Scale

关键词

自然语言处理,表示学习,跨语言,人工智能

简介

本文表明,针对多种跨语言转换任务,大规模地对多语言语言模型进行预训练可以显着提高性能。 我们使用超过2 TB的经过过滤的CommonCrawl数据在一百种语言上训练了基于Transformer的屏蔽语言模型。 我们的模型称为XLM-R,在各种跨语言基准测试中,其性能明显优于多语言BERT(mBERT),包括XNLI的平均精度为+ 13.8%,MLQA的平均F1得分为+ 12.3%,NER的平均F1得分为+ 2.1%。 XLM-R在低资源语言上表现特别出色,与以前的XLM模型相比,斯瓦希里语的XNLI准确性提高了11.8%,乌尔都语的准确性提高了9.2%。 我们还对获得这些收益所需的关键因素进行了详细的实证评估,包括(1)积极转移和能力稀释以及(2)大规模资源资源的高低性能之间的权衡。 最后,我们首次展示了在不牺牲每种语言性能的情况下进行多语言建模的可能性。 XLM-R在GLUE和XNLI基准测试中具有强大的单语言模型,因此非常具有竞争力。 我们将公开提供XLM-R代码,数据和模型。

作者

Alexis Conneau, Kartikay Khandelwal等。

成为VIP会员查看完整内容
0
20

本文表明,在大规模的多语言预训练模型,可以显著地提高跨语言迁移任务的性能。我们使用超过2TB的过滤CommonCrawl数据,在100种语言上训练一个基于Transformer的掩码语言模型。我们的模型被称为XLM-R,在多种跨语言基准测试中显著优于多语言BERT (mBERT),包括XNLI的平均正确率+13.8%,MLQA的平均F1分数+12.3%,NER的平均F1分数+2.1%。XLM- r在低资源语言上表现特别好,与以前的XLM模型相比,XNLI在斯瓦希里语上的准确率提高了11.8%,在乌尔都语上的准确率提高了9.2%。我们还对实现这些收益所需的关键因素进行了详细的实证评估,包括(1)积极迁移和能力稀释之间的权衡,以及(2)大规模高资源语言和低资源语言的性能。最后,我们首次展示了在不牺牲每种语言性能的情况下进行多语言建模的可能性;XLM-Ris在GLUE和XNLI基准上有很强的单语言模型,非常有竞争力。我们将使XLM-R代码、数据和模型公开可用。

成为VIP会员查看完整内容
0
30

Transfer learning aims at improving the performance of target learners on target domains by transferring the knowledge contained in different but related source domains. In this way, the dependence on a large number of target domain data can be reduced for constructing target learners. Due to the wide application prospects, transfer learning has become a popular and promising area in machine learning. Although there are already some valuable and impressive surveys on transfer learning, these surveys introduce approaches in a relatively isolated way and lack the recent advances in transfer learning. As the rapid expansion of the transfer learning area, it is both necessary and challenging to comprehensively review the relevant studies. This survey attempts to connect and systematize the existing transfer learning researches, as well as to summarize and interpret the mechanisms and the strategies in a comprehensive way, which may help readers have a better understanding of the current research status and ideas. Different from previous surveys, this survey paper reviews over forty representative transfer learning approaches from the perspectives of data and model. The applications of transfer learning are also briefly introduced. In order to show the performance of different transfer learning models, twenty representative transfer learning models are used for experiments. The models are performed on three different datasets, i.e., Amazon Reviews, Reuters-21578, and Office-31. And the experimental results demonstrate the importance of selecting appropriate transfer learning models for different applications in practice.

0
90
下载
预览

In existing visual representation learning tasks, deep convolutional neural networks (CNNs) are often trained on images annotated with single tags, such as ImageNet. However, a single tag cannot describe all important contents of one image, and some useful visual information may be wasted during training. In this work, we propose to train CNNs from images annotated with multiple tags, to enhance the quality of visual representation of the trained CNN model. To this end, we build a large-scale multi-label image database with 18M images and 11K categories, dubbed Tencent ML-Images. We efficiently train the ResNet-101 model with multi-label outputs on Tencent ML-Images, taking 90 hours for 60 epochs, based on a large-scale distributed deep learning framework,i.e.,TFplus. The good quality of the visual representation of the Tencent ML-Images checkpoint is verified through three transfer learning tasks, including single-label image classification on ImageNet and Caltech-256, object detection on PASCAL VOC 2007, and semantic segmentation on PASCAL VOC 2012. The Tencent ML-Images database, the checkpoints of ResNet-101, and all the training codehave been released at https://github.com/Tencent/tencent-ml-images. It is expected to promote other vision tasks in the research and industry community.

1
8
下载
预览

Despite of the success of Generative Adversarial Networks (GANs) for image generation tasks, the trade-off between image diversity and visual quality are an well-known issue. Conventional techniques achieve either visual quality or image diversity; the improvement in one side is often the result of sacrificing the degradation in the other side. In this paper, we aim to achieve both simultaneously by improving the stability of training GANs. A key idea of the proposed approach is to implicitly regularizing the discriminator using a representative feature. For that, this representative feature is extracted from the data distribution, and then transferred to the discriminator for enforcing slow updates of the gradient. Consequently, the entire training process is stabilized because the learning curve of discriminator varies slowly. Based on extensive evaluation, we demonstrate that our approach improves the visual quality and diversity of state-of-the art GANs.

0
7
下载
预览
小贴士
相关论文
Ting Chen,Simon Kornblith,Mohammad Norouzi,Geoffrey Hinton
20+阅读 · 2020年2月13日
A Comprehensive Survey on Transfer Learning
Fuzhen Zhuang,Zhiyuan Qi,Keyu Duan,Dongbo Xi,Yongchun Zhu,Hengshu Zhu,Hui Xiong,Qing He
90+阅读 · 2019年11月7日
Alexis Conneau,Kartikay Khandelwal,Naman Goyal,Vishrav Chaudhary,Guillaume Wenzek,Francisco Guzmán,Edouard Grave,Myle Ott,Luke Zettlemoyer,Veselin Stoyanov
4+阅读 · 2019年11月5日
Mohamed Elhoseiny,Mohamed Elfeki
4+阅读 · 2019年4月3日
Tencent ML-Images: A Large-Scale Multi-Label Image Database for Visual Representation Learning
Baoyuan Wu,Weidong Chen,Yanbo Fan,Yong Zhang,Jinlong Hou,Junzhou Huang,Wei Liu,Tong Zhang
8+阅读 · 2019年1月7日
Sewon Min,Minjoon Seo,Hannaneh Hajishirzi
3+阅读 · 2018年5月31日
Xiangteng He,Yuxin Peng
3+阅读 · 2018年4月26日
Duhyeon Bang,Hyunjung Shim
7+阅读 · 2018年1月28日
Aljoša Ošep,Paul Voigtlaender,Jonathon Luiten,Stefan Breuers,Bastian Leibe
3+阅读 · 2017年12月23日
Tianqi Chen,Ian Goodfellow,Jonathon Shlens
3+阅读 · 2016年4月23日
Top