自监督学习的发展趋势:事半功倍的模型训练和数据效能

2022 年 1 月 28 日 PaperWeekly

©作者 | 唐工



写在篇首


这些趋势之所以令人兴奋,是因为它们可以大大减少为某一特定任务使用机器学习所需的努力,也因为它们使得在更具代表性的数据上训练模型变得更加容易(尽管绝非微不足道),这些模型更好地反映了不同的亚种群、区域、语言或其他重要的表示维度。



现有的模型通常使用自监督(self-supervised)学习方法进行训练,其中模型从没有经过策划或标记的“原始”数据的观察中学习,例如 GPT-3 和 GLaM 中使用的语言模型、自监督语音模型 BigSSL 、可视对比学习模型 SimCLR,和多模态对比模型 VATT。

自监督学习允许一个大的语音识别模型(BigSSL 模型),只使用 3% 的标签训练数据,就能满足先前的 Voice Search 自动语音识别(automatic speech recognition,ASR)基准测试准确度。



GLaM 模型:更有效的上下文学习

GLaM(Generalist Language Model)模型,旨在解决训练大型稠密模型(比如GPT-3)需要大量的计算资源的问题。

大型语言模型(例如,GPT-3)具有许多重要的能力,例如在一系列广泛的任务中执行少样本学习(few-shot learning),包括只有很少或根本没有训练样本的阅读理解和问答。但训练这些大型模型是极其计算密集的。

GLaM 模型是一簇通用语言模型,由于其稀疏性(sparsity),可以(在计算和能耗方面)有效地进行训练和提供服务,并且在多个少样本学习任务上取得了更好的表现。

GLaM 模型使用稀疏激活的 MoE(sparsely activated mixture-of-experts)架构来扩展模型容量,同时与稠密的变体相比,训练成本大大减少

...It consumes only 1/3 of the energy used to train GPT-3 and requires half of the computation flops for inference... ...它只消耗 GPT-3训练所需能耗的1/3,并且只需要一半的浮点运算进行推理...


▲ GLaM 的架构,其中每个输入标记都被动态地路由到64个专家网络中的选定的两个,以进行预测


BigSSL 模型:探索用于自动语音识别的大规模半监督学习的前沿


BigSSL(Large-Scale Semi-Supervised Learning )模型,发现预训练(pre-training)、自训练(self-training)和扩大模型尺寸(scaling up model size)的组合极大地提高了数据效能,即使对于具有数万小时标记数据的超大型任务也是如此。

SSL + Large Models = Labeled Data Efficiency
半监督学习 + 大型模型 = 标记数据的效能


BigSSL 模型使用 Conformer (convolution-augmented transformer)模型作为其编码器网络,Conformer 模型将卷积神经网络和 Transformer 结合起来,以参数高效(parameter-efficient)的方式对音频序列的局部和全局依赖关系进行建模。

Transformer models are good at capturing content-based global interactions, while CNNs exploit local features effectively. Transformer 模型擅长捕获基于内容的全局交互,而 CNN 则有效地利用局部特征。


▲ Conformer 编码器和 wav2vec 2.0 预训练。Conformer Block 包含注意力、前馈和卷积模块。



SimCLR 模型:提高自监督和半监督学习


SimCLR 模型,旨在解决当前图像数据的自监督(self-supervised)技术没有被广泛采用的问题:

  • 当前的图像数据自监督技术过于复杂;

  • 需要对架构或训练过程进行重大修改。

提高计算机视觉任务的性能的范式:在大型的未标记图像数据集进行预训练,然后在一个较小的标记数据集微调。这些方法属于自监督学习的范畴,通过从未标记的数据集创建替代标签,将非监督式学习问题转化为受监督的问题。

SimCLR 模型首先通过对比学习(contrastive learning),同时最大化同一图像的不同变换视图之间的一致性和最小化不同图像变换视图之间的一致性,在未标记的数据集上学习图像的通用表示法;然后它可以用少量的标记图像进行微调,以对给定的分类任务达到良好的性能。

▲ SimCLR 框架的一个示例。和 MLP 图层同时训练产生的投影对于同一图像的增强版本是相似的,而对于不同的图像是不同的,即使这些图像是同一类的物体。经过训练的模型不仅能很好地识别同一图像的不同变换,而且还能学习类似概念的表示(例如,椅子和狗),这些概念后来可以通过微调与标签联系起来。



VATT 模型:从原始视频、音频和文本的多模态自监督学习 Transformer


VATT (Video-Audio-Text Transformer)模型,用于使用无卷积 Transformer 架构从未标记的数据中学习多模态表示。

VATT 模型使用多模态对比损失(contrastive loss)进行训练,并通过视频动作识别、音频事件分类、图像分类和文本到视频检索等下游任务来评估其性能。

▲ VATT 架构和自监督、多模式学习策略的概述。VATT 将每种模态线性投影到特征向量中,并将其输入到 Transformer 编码器中。定义了一个语义层次化的公共空间来解释不同模态的粒度,并使用噪声对比估计来训练模型。 



参考文献

[2112.06905] GLaM: Efficient Scaling of Language Models with Mixture-of-Experts (arxiv.org):https://arxiv.org/abs/2112.06905

[2109.13226] BigSSL: Exploring the Frontier of Large-Scale Semi-Supervised Learning for Automatic Speech Recognition (arxiv.org):https://arxiv.org/abs/2109.13226

[2002.05709] A Simple Framework for Contrastive Learning of Visual Representations (arxiv.org):https://arxiv.org/abs/2002.05709

[2104.11178] VATT: Transformers for Multimodal Self-Supervised Learning from Raw Video, Audio and Text (arxiv.org):https://arxiv.org/abs/2104.11178


特别鸣谢

感谢 TCCI 天桥脑科学研究院对于 PaperWeekly 的支持。TCCI 关注大脑探知、大脑功能和大脑健康。



更多阅读




#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编




🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧



·

登录查看更多
1

相关内容

监督学习是指:利用一组已知类别的样本调整分类器的参数,使其达到所要求性能的过程,也称为监督训练或有教师学习。 监督学习是从标记的训练数据来推断一个功能的机器学习任务。训练数据包括一套训练示例。在监督学习中,每个实例都是由一个输入对象(通常为矢量)和一个期望的输出值(也称为监督信号)组成。监督学习算法是分析该训练数据,并产生一个推断的功能,其可以用于映射出新的实例。一个最佳的方案将允许该算法来正确地决定那些看不见的实例的类标签。这就要求学习算法是在一种“合理”的方式从一种从训练数据到看不见的情况下形成。
【CVPR2022】基于密集学习的半监督目标检测
专知会员服务
19+阅读 · 2022年4月19日
专知会员服务
9+阅读 · 2021年7月28日
专知会员服务
22+阅读 · 2021年7月15日
自监督学习最新研究进展
专知会员服务
76+阅读 · 2021年3月24日
【Google论文】ALBERT:自我监督学习语言表达的精简BERT
专知会员服务
23+阅读 · 2019年11月4日
稀疏大模型简述:从MoE、Sparse Attention到GLaM
夕小瑶的卖萌屋
13+阅读 · 2022年3月22日
任务型对话系统预训练最新研究进展
PaperWeekly
2+阅读 · 2022年1月14日
知识蒸馏综述:蒸馏机制
极市平台
7+阅读 · 2021年12月13日
基于知识蒸馏的BERT模型压缩
大数据文摘
18+阅读 · 2019年10月14日
面向云端融合的分布式计算技术研究进展与趋势
中国计算机学会
19+阅读 · 2018年11月27日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
Arxiv
19+阅读 · 2021年4月8日
Arxiv
21+阅读 · 2020年10月11日
AdarGCN: Adaptive Aggregation GCN for Few-Shot Learning
UNITER: Learning UNiversal Image-TExt Representations
Arxiv
23+阅读 · 2019年9月25日
VIP会员
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
Top
微信扫码咨询专知VIP会员